JP5537649B2 - データ検索およびインデクシングの方法および装置 - Google Patents
データ検索およびインデクシングの方法および装置 Download PDFInfo
- Publication number
- JP5537649B2 JP5537649B2 JP2012505214A JP2012505214A JP5537649B2 JP 5537649 B2 JP5537649 B2 JP 5537649B2 JP 2012505214 A JP2012505214 A JP 2012505214A JP 2012505214 A JP2012505214 A JP 2012505214A JP 5537649 B2 JP5537649 B2 JP 5537649B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- file
- feature
- document
- data file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Description
各特徴グループがn個(nは2以上の整数)の特徴を含む複数の特徴グループを決定すること;
各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現することであって、この場合において一の特徴グループを構成する前記n個の特徴は互いに隣接するように位置付けられる必要がなく;
前記特徴グループをベクトルとして用いることにより検索クエリーを表現すること;
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索すること;
を含む方法を提供する。
各特徴グループがn個(nは2以上の整数)の特徴を含む複数の特徴グループを決定すること;
各特徴グループを、該特徴グループが出現するデータファイルを示すベクトルの成分を持った特徴グループベクトルとして表現することであって、この場合において一の特徴グループを構成する前記n個の特徴は互いに隣接するように位置付けられる必要がなく;
前記特徴グループをベクトルとして用いることにより検索クエリーを表現すること;
ベクトルとして表現された前記検索クエリーを前記特徴グループベクトルと比較することにより、前記複数のデータファイルを検索すること;
を含む方法を提供する。
複数の一般トレーニングコーパスを提供すること;
前記特定の主題に関する少なくとも1つのデータファイルを入力すること;
本発明の第1の態様による方法を用いて、前記複数の一般トレーニングコーパスから前記主題に関するコーパスを検索することを含み、検索クエリーは前記特定の主題に関するデータファイルであり、検索される前記複数のデータファイルは、前記複数の一般トレーニングコーパスである。
上述したように選択されたトレーニングコーパスを用いて第1の言語モデルをトレーニングすること;
異なる方法で選択されたトレーニングコーパスを用いて第2の言語モデルをトレーニングすること;
前記第1の言語モデルと第2の言語モデルを補間すること、を含んでもよい。
音声処理方法の主題に関する少なくとも1つのデータファイルを入力すること;
コーパス内の各単語の頻度を示すベクトルの成分を持ったファイルベクトルとして前記複数のコーパス中の各コーパスを表現すること;
前記ファイルベクトルと同じ形式で前記音声処理方法の前記主題に関するデータファイルを表現すること;
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索すること、により選択されてもよい。
各特徴グループがn個(nは2以上の整数)の特徴を含む複数の特徴グループを決定すること;
各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現すること、を含む。この場合において一の特徴グループを構成する前記n個の特徴は互いに隣接するように位置付けられる必要がない。また、各ファイルベクトルは前記データファイルにインデックスを供給する。
各特徴グループがn個(nは2以上の整数)の特徴を含む複数の特徴グループを決定し;
各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現し、この場合において一の特徴グループを構成する前記n個の特徴は互いに隣接するように位置付けられる必要がなく;
前記特徴グループをベクトルとして用いることにより検索クエリーを表現し;
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索するように構成されたプロセッサを具備する。
トレーニングコーパスを選択し;
前記選択されたコーパスを用いて、音声処理のために言語モデルをトレーニングし;
前記言語モデルを用いて音声を処理するように構成されたプロセッサを具備し、
トレーニングコーパスを選択することは、
処理すべき音声の主題に関する少なくとも1つのデータファイルを入力すること;
コーパス内の、n個の単語(nは少なくとも2の整数)を含む各単語グループの頻度を示すベクトルの成分を持ったファイルベクトルとして前記複数のコーパス中の各コーパスを表現すること;
前記ファイルベクトルと同じ形式で前記音声処理方法の前記主題に関するデータファイルを表現すること;
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記コーパスを検索すること、
を含む音声処理装置を提供する。
・"IT INCLUDES SUSHI SOUP AND FRUIT"
これら2つのテキスト文書に基づいて、次のように16個の単語を持つ辞書が構築される:
[1 "I", 2 "IT", 3 "OF", 4 "TO", 5 "FRUITS", 6 "WANT", 7 "SOUP", 8 "SUSHI", 9 "PIECES", 10 "HOME", 11 "AND", 12 "BUY", 13 "TAKE", 14 "THEM", 15 "TEN", 16 "INCLUDES"]
また、この辞書のインデックスを用いて各文書は16エントリーのベクトルによって表される:
[1,0,1,1,0,1,0,1,1,1,1,1,1,1,1,0]
[0,1,0,0,1,0,1,1,0,0,1,0,0,0,0,1]
典型的なbag−of−words法は潜在意味解析(LSA)である。LSAは、文書中の単語の出現を表現する単語文書行列を用いることができる。この行列は、その行がアイテムまたは用語に対応し、その列が文書に対応するスパース行列である。M個の単語による語彙とN個の文書によるトレーニングコーパスτとが与えられて単語文書行列Aが構築される。下記のように、各文書は次元Mの列ベクトルに関連付けられ、各単語は次元Nの行ベクトルに関連付けられる。
njはdj中に存在する単語の総数、
εiはコーパス中のwiの正規化されたエントロピーである。
文書2「IT INCLUDES SUSHI SOUP AND FRUIT」
これらの2つのテキスト文書に基づいて、次の単語対は識別することができる。
[1 "BUY_NULL", 2 "BUY_FRUITS",3 "BUY_HOME",4 "BUY_I",5 "BUY_INCLUDES",6 "BUY_PIECES",7 "BUY_SOUP",8 "BUY_SUSHI",9 "BUY_TAKE", 10 "BUY_TEN", 11 "BUY_THEM",12 "BUY_WANT",13 "FRUITS_NULL",14 "FRUITS_HOME",15 "FRUITS_I",16 "FRUITS_INCLUDES",17 "FRUITS_PIECES",18 "FRUITS_SOUP",19 "FRUITS_SUSHI",20 "FRUITS_TAKE",21 "FRUITS_TEN",22 "FRUITS_THEM",23 "FRUITS_WANT",24 "HOME_NULL",25 "HOME_I",26 "HOME_INCLUDES",27 "HOME_PIECES",28 "HOME_SOUP",29 "HOME_SUSHI",30 "HOME_TAKE",31 "HOME_TEN",32 "HOME_THEM",33 "HOME_WANT",34 "INCLUDES_NULL",35 "INCLUDES_PIECES",36 "INCLUDES_SOUP",37 "INCLUDES_SUSHI",38 "INCLUDES_TAKE",39 "INCLUDES_TEN",40 "INCLUDES_THEM",41 "INCLUDES_WANT",42 "I_NULL",43 "I_INCLUDES",44 "I_PIECES",45 "I_SOUP",46 "I_SUSHI",47 "I_TAKE",48 "I_TEN",49 "I_THEM",50 "I_WANT",51 "PIECES_NULL",52 "PIECES_SOUP",53 "PIECES_SUSHI",54 "PIECES_TAKE",55 "PIECES_TEN",56 "PIECES_THEM",57 "PIECES_WANT",58 "SOUP_NULL",59 "SOUP_SUSHI",60 "SOUP_TAKE",61 "SOUP_TEN",62 "SOUP_THEM",63 "SOUP_WANT",64 "SUSHI_NULL",65 "SUSHI_TAKE",66 "SUSHI_TEN",67 "SUSHI_THEM",68 "SUSHI_WANT",69 "TAKE_NULL",70 "TAKE_TEN",71 "TAKE_THEM",72 "TAKE_WANT",73 "TEN_ NULL ",74 "TEN_THEM",75 "TEN_WANT",76 "THEM_THEM",77 "THEM_WANT",78 "WANT_NULL"]
上記には78の異なる単語対がある。したがって、各文書は78エントリのベクトルによって表わすことができる:
[1,0,1,1,0,1,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,1,1,0,1,0,1,1,1,1,1,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,1,0,1,1,1,1,1,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
[0,0,0,0,0,0,0,0,0,0,0,0,1,0, ,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 1,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0, 0,0,0,0,1,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
原則として、全文書中について起こり得る単語対が単語対辞書内にすべて集められ、単語対の数に相当する成分を持つベクトルが計算され得る。しかしながら、起こり得る単語対の数は大きすぎることから、単語対の数を削る(prune)ことが望ましい。単語対の数を減らすために、選択された単語対を共に強く関連させるものとする。2単語間のアソシエーション(例えば次のように表現することができる平均相互情報量(AMI))を計算するいくつかの広く用いられている方法がある:
・"I WANT TO BUY TEN PIECES OF SUSHI AND TAKE THEM HOME"
・"IT INCLUDES SUSHI SOUP AND FRUIT"
では、単語対プルーニング(pruning)の前に、BoWPの辞書には78のエントリーが存在する。プルーニングの後は、次の通り、辞書にはわずか16のエントリーしか含まれない:
[1 "BUY_NULL",2 "BUY_INCLUDES",3 "BUY_PIECES",4 "FRUITS_NULL",5 "FRUITS_PIECES",6 "FRUITS_SOUP",7 "FRUITS_SUSHI",8 "INCLUDES_NULL",9 "INCLUDES_PIECES",10 "INCLUDES_SUSHI",11 "PIECES_NULL", 12 "PIECES_SOUP",13 "PIECES_SUSHI",14 "SOUP_NULL",15 "SOUP_SUSHI",16 "SUSHI_NULL"]
ステップS105で除去された単語対を用いて、各文書は16成分のベクトルによって表わされる:
[1,0,1,0,0,0,0,0,0,0,1,0,1,0,0,1]
[0,0,0,1,0,1,1,1,0,1,0,0,0,1,1,1]
その後、単語対と文書の共起行列がステップS109で構築される。この行列の各列は文書を表わし、該行列の各行は単語対に関連付けられる。単語対および文書の共起行列を以下に示す:
・MBoW。これは、BoWデータ選択に基づいたコーパスによってトレーニングされたLMである。
Claims (12)
- 各データファイルが複数の特徴を含む複数のデータファイルをコンピュータが検索する方法であって、
各特徴グループがn個(nは2以上の整数)の特徴を含む複数の特徴グループを決定すること;
各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現することであって、この場合において一の特徴グループを構成する前記n個の特徴は互いに隣接するように位置付けられる必要がなく;
前記特徴グループをベクトルとして用いることにより検索クエリーを表現すること;および
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索すること、を含む方法。 - 前記検索クエリーがファイルベクトルとして表現される請求項1の方法。
- 前記比較は、前記検索クエリーの前記ファイルベクトルと前記データファイルの前記ファイルベクトルの間のセパレーションを決定することにより行なわれる請求項2の方法。
- 前記データファイルは文書、音声処理用コーパス、画像データファイルから選択される請求項1の方法。
- 前記特徴は、単語、句、画像中のコードワードのいずれかである請求項1乃至4のいず れかの方法。
- 各特徴グループが特徴対(n=2)である請求項1乃至5のいずれかの方法。
- 複数の特徴グループを決定することは、前記特徴グループにおける特徴間のアソシエーションに基づいて全特徴グループから特徴グループを削ることを含む請求項1乃至6のいずれかの方法。
- 複数の特徴グループを決定することは、文書中で頻繁に繰り返される特徴を含んだ特徴グループを削除することを含む請求項1乃至7のいずれかの方法。
- 前記ファイルベクトルは行列で構成され、前記行列は因数分解される請求項1乃至8のいずれかの方法。
- 特定の主題に関する音声の処理のためにコンピュータがトレーニングコーパスを選択する方法であって、
複数の一般トレーニングコーパスを提供すること;
前記特定の主題に関する少なくとも1つのデータファイルを入力すること;および
請求項1乃至8のいずれかの方法を用いて、前記複数の一般トレーニングコーパスから前記主題に関するコーパスを検索することを含み、検索クエリーは前記特定の主題に関するデータファイルであり、検索される前記複数のデータファイルは、前記複数の一般トレーニングコーパスである方法。 - 請求項1乃至10の方法を実行するようにコンピュータを制御するためのプログラム。
- 各データファイルが複数の特徴を含む複数のデータファイルを検索するための装置であって、該装置は、
各特徴グループがn個(nは2以上の整数)の特徴を含む複数の特徴グループを決定し;
各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現し、この場合において一の特徴グループを構成する前記n個の特徴は互いに隣接するように位置付けられる必要がなく;
前記特徴グループをベクトルとして用いることにより検索クエリーを表現し;および
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索するように構成されたプロセッサを具備する装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/GB2009/000977 WO2010119233A1 (en) | 2009-04-16 | 2009-04-16 | A data retrieval and indexing method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012524314A JP2012524314A (ja) | 2012-10-11 |
JP5537649B2 true JP5537649B2 (ja) | 2014-07-02 |
Family
ID=41213186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012505214A Expired - Fee Related JP5537649B2 (ja) | 2009-04-16 | 2009-04-16 | データ検索およびインデクシングの方法および装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9223850B2 (ja) |
JP (1) | JP5537649B2 (ja) |
GB (1) | GB2482630B (ja) |
WO (1) | WO2010119233A1 (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
JP5914054B2 (ja) * | 2012-03-05 | 2016-05-11 | 日本放送協会 | 言語モデル作成装置、音声認識装置、およびそのプログラム |
US8996371B2 (en) * | 2012-03-29 | 2015-03-31 | Nice-Systems Ltd. | Method and system for automatic domain adaptation in speech recognition applications |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US8571859B1 (en) | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US8805684B1 (en) | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US8554559B1 (en) | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
US9519858B2 (en) * | 2013-02-10 | 2016-12-13 | Microsoft Technology Licensing, Llc | Feature-augmented neural networks and applications of same |
US9727619B1 (en) * | 2013-05-02 | 2017-08-08 | Intelligent Language, LLC | Automated search |
US9251139B2 (en) * | 2014-04-08 | 2016-02-02 | TitleFlow LLC | Natural language processing for extracting conveyance graphs |
US9734144B2 (en) * | 2014-09-18 | 2017-08-15 | Empire Technology Development Llc | Three-dimensional latent semantic analysis |
US9665628B1 (en) | 2015-12-06 | 2017-05-30 | Xeeva, Inc. | Systems and/or methods for automatically classifying and enriching data records imported from big data and/or other sources to help ensure data integrity and consistency |
US10586528B2 (en) * | 2017-02-02 | 2020-03-10 | Adobe Inc. | Domain-specific speech recognizers in a digital medium environment |
US11567914B2 (en) | 2018-09-14 | 2023-01-31 | Verint Americas Inc. | Framework and method for the automated determination of classes and anomaly detection methods for time series |
US11334832B2 (en) | 2018-10-03 | 2022-05-17 | Verint Americas Inc. | Risk assessment using Poisson Shelves |
KR102659494B1 (ko) * | 2019-01-21 | 2024-04-23 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
EP3706017A1 (en) | 2019-03-07 | 2020-09-09 | Verint Americas Inc. | System and method for determining reasons for anomalies using cross entropy ranking of textual items |
IL288669B1 (en) * | 2019-06-18 | 2024-04-01 | Verint Americas Inc | Identifying anomalies in textual items using cross entropies |
US11308090B2 (en) | 2019-12-26 | 2022-04-19 | Snowflake Inc. | Pruning index to support semi-structured data types |
US11681708B2 (en) | 2019-12-26 | 2023-06-20 | Snowflake Inc. | Indexed regular expression search with N-grams |
US11372860B2 (en) | 2019-12-26 | 2022-06-28 | Snowflake Inc. | Processing techniques for queries where predicate values are unknown until runtime |
US10769150B1 (en) * | 2019-12-26 | 2020-09-08 | Snowflake Inc. | Pruning indexes to enhance database query processing |
US11567939B2 (en) | 2019-12-26 | 2023-01-31 | Snowflake Inc. | Lazy reassembling of semi-structured data |
US10997179B1 (en) | 2019-12-26 | 2021-05-04 | Snowflake Inc. | Pruning index for optimization of pattern matching queries |
US11610581B2 (en) * | 2021-02-05 | 2023-03-21 | International Business Machines Corporation | Multi-step linear interpolation of language models |
US11880369B1 (en) | 2022-11-21 | 2024-01-23 | Snowflake Inc. | Pruning data based on state of top K operator |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6026388A (en) * | 1995-08-16 | 2000-02-15 | Textwise, Llc | User interface and other enhancements for natural language information retrieval system and method |
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
JP3921837B2 (ja) * | 1998-09-30 | 2007-05-30 | 富士ゼロックス株式会社 | 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法 |
US6360215B1 (en) * | 1998-11-03 | 2002-03-19 | Inktomi Corporation | Method and apparatus for retrieving documents based on information other than document content |
JP2000137718A (ja) * | 1998-11-04 | 2000-05-16 | Nippon Telegr & Teleph Corp <Ntt> | 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体 |
US7424150B2 (en) * | 2003-12-08 | 2008-09-09 | Fuji Xerox Co., Ltd. | Systems and methods for media summarization |
US7551780B2 (en) * | 2005-08-23 | 2009-06-23 | Ricoh Co., Ltd. | System and method for using individualized mixed document |
US8010534B2 (en) * | 2006-08-31 | 2011-08-30 | Orcatec Llc | Identifying related objects using quantum clustering |
US7831587B2 (en) * | 2007-05-10 | 2010-11-09 | Xerox Corporation | Event hierarchies and memory organization for structured data retrieval |
US20130262467A1 (en) * | 2010-12-23 | 2013-10-03 | Nokia Corporation | Method and apparatus for providing token-based classification of device information |
-
2009
- 2009-04-16 WO PCT/GB2009/000977 patent/WO2010119233A1/en active Application Filing
- 2009-04-16 US US13/264,845 patent/US9223850B2/en not_active Expired - Fee Related
- 2009-04-16 GB GB1119833.0A patent/GB2482630B/en not_active Expired - Fee Related
- 2009-04-16 JP JP2012505214A patent/JP5537649B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012524314A (ja) | 2012-10-11 |
WO2010119233A1 (en) | 2010-10-21 |
GB2482630B (en) | 2014-12-24 |
US9223850B2 (en) | 2015-12-29 |
GB2482630A (en) | 2012-02-08 |
US20120109651A1 (en) | 2012-05-03 |
GB201119833D0 (en) | 2011-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5537649B2 (ja) | データ検索およびインデクシングの方法および装置 | |
CN109190117B (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
CN109960724B (zh) | 一种基于tf-idf的文本摘要方法 | |
CN106970910B (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN110750640B (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN111125349A (zh) | 基于词频和语义的图模型文本摘要生成方法 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN106844632B (zh) | 基于改进支持向量机的产品评论情感分类方法及装置 | |
CN107577671B (zh) | 一种基于多特征融合的主题词提取方法 | |
US20100205198A1 (en) | Search query disambiguation | |
CN107122413A (zh) | 一种基于图模型的关键词提取方法及装置 | |
US20040162827A1 (en) | Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
CN110688836A (zh) | 基于监督学习的领域词典自动化构建方法 | |
CN104199965A (zh) | 一种语义信息检索方法 | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
CN108509521A (zh) | 一种自动生成文本索引的图像检索方法 | |
CN106294733A (zh) | 基于文本分析的网页检测方法 | |
CN106294736A (zh) | 基于关键词频率的文本特征提取方法 | |
CN107168953A (zh) | 海量文本中基于词向量表征的新词发现方法及系统 | |
CN117421393B (zh) | 一种用于专利的生成式检索方法及系统 | |
JP2014056331A (ja) | 文書分類方法、文書分類プログラム及び文書分類装置 | |
CN115827988B (zh) | 一种自媒体内容热度预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120413 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130820 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131021 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131205 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131212 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140401 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140425 |
|
LAPS | Cancellation because of no payment of annual fees |