JP5537649B2 - データ検索およびインデクシングの方法および装置 - Google Patents

データ検索およびインデクシングの方法および装置 Download PDF

Info

Publication number
JP5537649B2
JP5537649B2 JP2012505214A JP2012505214A JP5537649B2 JP 5537649 B2 JP5537649 B2 JP 5537649B2 JP 2012505214 A JP2012505214 A JP 2012505214A JP 2012505214 A JP2012505214 A JP 2012505214A JP 5537649 B2 JP5537649 B2 JP 5537649B2
Authority
JP
Japan
Prior art keywords
vector
file
feature
document
data file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012505214A
Other languages
English (en)
Other versions
JP2012524314A (ja
Inventor
ランジョウ、チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2012524314A publication Critical patent/JP2012524314A/ja
Application granted granted Critical
Publication of JP5537649B2 publication Critical patent/JP5537649B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Description

本発明はデータ検索およびインデクシングの分野に関し、より具体的には、本発明はテキスト検索、音声処理、画像処理などにおいて用いられる線形意味論の方法に関する。
アイテム間の関係および構造を無視し、独立したアイテムのコレクションとしてオブジェクトを表わすデータ表現方法が知られている。そのような方法の一例はいわゆる「bag−of−words」(BoW)法である。
bag−of−words法は、自然言語処理(NLP)において広く用いられてきた。この場合、データオブジェクトはテキスト文書によって提供される。また、アイテムは文書に現われる単語の非順序のコレクションである。また、bag−of−words法はコンピュータビジョンの分野でも用いられる。この場合、データオブジェクトは画像である。また、アイテムはコードブックからのコードワードである。
BoW法は、文書を個々の単語の束(bunch)として表現する。しかしながら、このbag of words法は意味論的な情報を十分に表現できない場合がある。例えば、文書が日付「September 11(セプテンバーイレブン)」を含んでいる場合、「September(セプテンバー)」および「11(イレブン)」は、どちらも当該文書の正しい情報を正確に伝えない。類似文書を選択するのにBoW法を用いると、「オーシャンズイレブン」あるいは「ブラックセプテンバー」のような多くの無関係な文書が選択されてしまうのである。また、単語には多義性があることから、単語が意味論的な曖昧さを招くことがある。例えば、「カレー」は食物の一種でもあり、ITショップの名前でもありえる。この種の曖昧さは、BoW型の解析の性能に影響を及ぼす。
提案する方法は、上述のBoW法の欠点に対処しようとするものである。これは、テキストを単語対のグループとして表現することによる。この場合において単語対の順序は無視する。以下、この方法をbag−of−wordpairs(BoWP)と呼ぶことにする。単語対は単語より意味論的な情報を含んでおり、テキストを単語対のグループあるいはさらに大きな単語グループとして表現することによって、より正確な意味論的情報を捕らえられることがBoWPへの動機付けである。
したがって、第1の態様において、本発明は、各データファイルが複数の特徴を含む複数のデータファイルを検索する方法であって、
各特徴グループがn個(nは2以上の整数)の特徴を含む複数の特徴グループを決定すること;
各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現することであって、この場合において一の特徴グループを構成する前記n個の特徴は互いに隣接するように位置付けられる必要がなく;
前記特徴グループをベクトルとして用いることにより検索クエリーを表現すること;
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索すること;
を含む方法を提供する。
提案された方法は、アイテム対またはアイテムグループの非順序収集としてオブジェクトを表わすために従来のBoW法を拡張する。特徴グループ内の特徴は互いの隣接するように位置付けられる必要はなく、任意の特定の順序で提供される必要もないことに留意することが重要である。そうすることによって、NLPおよび言語モデルの領域において、テキスト中のより複雑な意味論的な情報をモデル化することができる。
本発明は、例えば自然言語処理(NLP)、情報検索(IR)、文書分類、コンピュータビジョン、言語モデル、音声認識、音声翻訳、OCR、手書き文字認識あるいは統計的言語モデル情報を用いる他の応用といった多くの分野に適用することができる。
データファイルは、文書、音声処理用コーパス、画像データファイル、マシンあるいは任意のモニタ装置からの遠隔測定データ、測定、レコードあるいはメーター測定値から選択してもよい。
一般的に、特徴グループは特徴の対(pair)である。特徴は、単語、句、画像中のコードワード等とすることができる。
検索クエリーは、ファイルベクトルそれ自身で表現することができる。例えば、検索クエリーベクトルの成分はファイルベクトルの成分と同じものである。
この比較は、検索クエリーのファイルベクトルとデータファイルのファイルベクトルの間のセパレーションを決定することにより行なってもよい。該2つのベクトルの間の角度のコサインを計算することにより、該セパレーションを定量化してもよい。
特徴グループベクトルの成分が、文書中の特徴グループの出現を示すように、検索クエリーを特徴グループベクトルとして表現することも可能である。
また、2つの特徴グループベクトルを比較することが可能である。文書/データファイル上の各特徴グループの出現に基づいて2つの特徴グループベクトルを構築してもよい。
したがって、第2の態様において、本発明は、各データファイルが複数の特徴を含む複数のデータファイルを検索する方法であって、
各特徴グループがn個(nは2以上の整数)の特徴を含む複数の特徴グループを決定すること;
各特徴グループを、該特徴グループが出現するデータファイルを示すベクトルの成分を持った特徴グループベクトルとして表現することであって、この場合において一の特徴グループを構成する前記n個の特徴は互いに隣接するように位置付けられる必要がなく;
前記特徴グループをベクトルとして用いることにより検索クエリーを表現すること;
ベクトルとして表現された前記検索クエリーを前記特徴グループベクトルと比較することにより、前記複数のデータファイルを検索すること;
を含む方法を提供する。
上記は、文書およびデータのクラスタリングにも用いることができる。また、上記は、本測定法に基づく単語クラスタリングにも用いることができ、類義語および多義語を検出することができる。
しばしば、特徴グループは多数になる。したがって、好ましい実施形態において、複数の特徴グループの決定は、前記特徴グループ中の特徴間のアソシエーションに基づいて全特徴グループから特徴グループを除去することを含む。
複数の特徴グループの決定は、データファイル中で頻繁に繰り返される特徴を含んでいる特徴グループを削除することを含み得る。例えば、データファイルはテキスト文書であって、特徴が単語である場合に「a」や「the」といった単語を削除することによって結果が向上する。
好ましい実施形態では、ラテラルな意味解析(LSA)方法を提供するために、ファイルベクトルが行列で構成される。前記行列はSVDのような技術によって因数分解することができる。
上記方法は、ASRのためのドメイン依存統計的言語モデル(LM)を構築するのに用いることができ、該LMは、対象領域のより意味論的な情報を捕らえることができる。
したがって、第3の態様において、本発明は、特定の主題に関する音声の処理のためにトレーニングコーパスを選択する方法を提供する。該方法は、
複数の一般トレーニングコーパスを提供すること;
前記特定の主題に関する少なくとも1つのデータファイルを入力すること;
本発明の第1の態様による方法を用いて、前記複数の一般トレーニングコーパスから前記主題に関するコーパスを検索することを含み、検索クエリーは前記特定の主題に関するデータファイルであり、検索される前記複数のデータファイルは、前記複数の一般トレーニングコーパスである。
したがって、第4の態様において、本発明は、上述したようにトレーニングコーパスを選択すること;前記選択されたコーパスを用いて音声処理のための言語モデルをトレーニングすること;前記言語モデルを用いて音声を処理することを含む音声処理の方法を提供する。
上記の音声処理は、入力音声信号がテキストデータファイルとして出力される自動音声認識(ASR)、あるいは、入力テキストがオーディオ音声ファイルに変換されるテキスト音声合成システムに適用することができる。
上記による言語モデルのトレーニングは、手書き文字認識、OCRなどにも適用することができる。
特徴グループに基づいて文書を選択する方法を用いてトレーニングされた言語モデルは、他の文書を用いてトレーニングされた言語モデルと組み合わせてもよい。そのような方法は、特徴グループおよび他の方法を用いて捕らえられた複雑な意味論的情報の混合を可能にする。
したがって、前記言語モデルをトレーニングすることは、
上述したように選択されたトレーニングコーパスを用いて第1の言語モデルをトレーニングすること;
異なる方法で選択されたトレーニングコーパスを用いて第2の言語モデルをトレーニングすること;
前記第1の言語モデルと第2の言語モデルを補間すること、を含んでもよい。
前記異なる方法は、既知のbag−of−words法で提供されることができ、前記第2の言語モデルのためのトレーニングコーパスは、複数の一般トレーニングコーパスを提供すること;
音声処理方法の主題に関する少なくとも1つのデータファイルを入力すること;
コーパス内の各単語の頻度を示すベクトルの成分を持ったファイルベクトルとして前記複数のコーパス中の各コーパスを表現すること;
前記ファイルベクトルと同じ形式で前記音声処理方法の前記主題に関するデータファイルを表現すること;
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索すること、により選択されてもよい。
特徴グループに基づいた選択技術を用いてトレーニングコーパスを最適化することにより言語モデルをどのように改善することができるかについて上述した。しかし、言語モデルを実質的にトレーニングする意味論的な方法を用いることも可能である。
したがって、言語モデルをトレーニングすることは、
言語モデル中の現在の単語wの確率を
Figure 0005537649
と表現することを含む。ここで、dは文書であり、hは単語履歴であり、
Figure 0005537649
であって、
Figure 0005537649
である。
また、ファイルベクトルの成分が前記コーパス中の単語の出現を示す前記ファイルベクトルとして文書を表現することにより該文書について構築されたベクトルと、前記単語について構築されたベクトルとを比較することにより、p(w|d)を得ることを含む。
上記では、この種の言語モデルをトレーニングする場合、"Exploiting Latent Semantic Information in Statistical language modelling" Proc. IEEE, vol. 88 no. 8, pp. 1279-1296, 2000においてJ.R. Bellegardaが主唱したbag−of−word技術を用いている。
しかしながら、特徴グループ技術を用いる技術にも適用することができる。この場合、言語モデルをトレーニングすることは、
言語モデル中の現在の単語wの確率を
Figure 0005537649
と表現することを含む。ここで、dは文書であり、hは単語履歴であり、
Figure 0005537649
であって、
Figure 0005537649
である。
また、コーパス内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして文書を表現することにより該文書について構築されたベクトルを比較することにより、p(w|d)を得ることを含む。
第5の態様において、本発明は、各データファイルが複数の特徴を含む複数のデータファイルをインデクシングする方法であって、
各特徴グループがn個(nは2以上の整数)の特徴を含む複数の特徴グループを決定すること;
各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現すること、を含む。この場合において一の特徴グループを構成する前記n個の特徴は互いに隣接するように位置付けられる必要がない。また、各ファイルベクトルは前記データファイルにインデックスを供給する。
したがって、本発明は改善されたデータベースをも提供する。第6の態様において、本発明は、複数のデータファイルを含むデータベースを提供する。各データファイルは、複数の特徴とインデックスを含む。各インデックスはファイルベクトルを含み、該ベクトルの各成分は当該データファイル内の特徴グループの頻度を示し、各特徴グループはn個の特徴(nは2以上の整数)を含み、一の特徴グループを構成するn個の特徴は、互いに隣接するように位置付ける必要はない。
第7の態様において、本発明は、各データファイルが複数の特徴を含む複数のデータファイルを検索するための装置であって、該装置は、
各特徴グループがn個(nは2以上の整数)の特徴を含む複数の特徴グループを決定し;
各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現し、この場合において一の特徴グループを構成する前記n個の特徴は互いに隣接するように位置付けられる必要がなく;
前記特徴グループをベクトルとして用いることにより検索クエリーを表現し;
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索するように構成されたプロセッサを具備する。
第8の態様において、本発明は、
トレーニングコーパスを選択し;
前記選択されたコーパスを用いて、音声処理のために言語モデルをトレーニングし;
前記言語モデルを用いて音声を処理するように構成されたプロセッサを具備し、
トレーニングコーパスを選択することは、
処理すべき音声の主題に関する少なくとも1つのデータファイルを入力すること;
コーパス内の、n個の単語(nは少なくとも2の整数)を含む各単語グループの頻度を示すベクトルの成分を持ったファイルベクトルとして前記複数のコーパス中の各コーパスを表現すること;
前記ファイルベクトルと同じ形式で前記音声処理方法の前記主題に関するデータファイルを表現すること;
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記コーパスを検索すること、
を含む音声処理装置を提供する。
本発明は、汎用コンピュータのハードウェアあるいはソフトウェアで実施することができる。また本発明は、ハードウェアとソフトウェアの組み合わせで実施することができる。また本発明は、単一の処理装置あるいは処理装置の分散ネットワークにより実施することができる。
本発明はソフトウェアにより実施できることから、本発明は任意の適切な搬送媒体によって汎用コンピュータに供給されるコンピュータコードを包含する。搬送媒体とは、フロッピー(登録商標)ディスク、CDROM、磁気デバイスもしくはプログラム可能メモリ装置のような任意の記憶媒体、または、(例えば電気的、光学的、あるいはマイクロ波の)信号のような、任意の一時的な媒体を含みうる。
以下の非制限的な実施形態の図を参照して本発明を説明する。
図1は、本発明の実施形態による方法と共に用いることのできるシステムの概略図である。 図2は、本発明の実施形態による文書インデクシング方法のフローチャートである。 図3は、本発明の実施形態による検索方法のフローチャートである。 図4は、本発明の実施形態による文献検索システムである。 図5は、本発明の実施形態による音声処理システムである。
図1は、データ探索またはインデクシングシステムの概略図である。システム1は、プログラム5を実行するプロセッサ3を含む。データシステム1は、さらに記憶装置7を含む。記憶装置7は、複数のデータファイルを記憶する。該複数のデータファイルは、プログラム5によってインデクシングされ、検索される。データシステム1は、さらに入出力モジュール9を含む。入出力モジュール9は、プロセッサへのインターフェースを提供する。キーボード、ネットワーク、外部記憶メディア、音声入力などによって検索クエリーを入力することができる。その結果は、視覚的に出力され、あるいはデータファイルとして提供されうる。
本発明による方法および装置は、既知の「bag of words」法の改良を提供する。この発明の理解のために、先行技術「bag−of−words」法を説明する。
この方法では、(文、パラグラフなどのような)テキストは、単語の非順序収集として表わされ、文法および語順でさえも無視される。用語「文書」は、句から本にいたるまで、任意の長さのテキストを包含する意味で用いる。BoWモデルは、辞書に基づいたモデルである。各文書は、辞書からのいくつかの単語を含んだ「袋(bag)」のように扱われる(故に語順は考慮されない)。例えば以下のような2つの簡素なテキスト文書があるとする。
・"I WANT TO BUY TEN PIECES OF SUSHI AND TAKE THEM HOME"
・"IT INCLUDES SUSHI SOUP AND FRUIT"
これら2つのテキスト文書に基づいて、次のように16個の単語を持つ辞書が構築される:
[1 "I", 2 "IT", 3 "OF", 4 "TO", 5 "FRUITS", 6 "WANT", 7 "SOUP", 8 "SUSHI", 9 "PIECES", 10 "HOME", 11 "AND", 12 "BUY", 13 "TAKE", 14 "THEM", 15 "TEN", 16 "INCLUDES"]
また、この辞書のインデックスを用いて各文書は16エントリーのベクトルによって表される:
[1,0,1,1,0,1,0,1,1,1,1,1,1,1,1,0]
[0,1,0,0,1,0,1,1,0,0,1,0,0,0,0,1]
典型的なbag−of−words法は潜在意味解析(LSA)である。LSAは、文書中の単語の出現を表現する単語文書行列を用いることができる。この行列は、その行がアイテムまたは用語に対応し、その列が文書に対応するスパース行列である。M個の単語による語彙とN個の文書によるトレーニングコーパスτとが与えられて単語文書行列Aが構築される。下記のように、各文書は次元Mの列ベクトルに関連付けられ、各単語は次元Nの行ベクトルに関連付けられる。
Figure 0005537649
単語文書行列Aにおいて、すべてのセルの値は、ある適当な単語の合計数の関数に対応する。各単語が各文書に出現する回数、すなわち単語の合計数は、通常、文書長および単語エントロピーによって正規化される。
行列Aの(i,j)セルの適当な表現は、
Figure 0005537649
である。ここで、ci,jは単語wが文書dに出現する回数、
はd中に存在する単語の総数、
εはコーパス中のwの正規化されたエントロピーである。
εは次のように計算することができる:
Figure 0005537649
ここで、tは、コーパスτ全体で単語wが出現する総数である。
(M×N)単語文書行列Aは、当該単語および文書について2つのベクトル表現を規定する。各単語wは、次元Nの行ベクトルにユニークに関連付けられ、各文書dは、次元Mの列ベクトルにユニークに関連付けられる。あいにく、これらのベクトル表現は3つの理由で非実用的である。まず、次元MおよびNは非常に大きくなりえる。第2に、ベクトルwおよびdは非常に疎(sparse)である。第3に、該2つの空間は互いに異なる。
この問題に対処するために、特異値分解(SVD)を行う。単にR個の最大特異値および関連する特異ベクトルを維持するのみで行列AのSVDは次のように表現することができる:
Figure 0005537649
ここで、Sは特異値の(R×R)の対角行列、Uは行ベクトルu(1≦i≦M)を持つ(M×R)の左特異行列、Vは行ベクトルv(1≦j≦M)を持つ(N×R)の右特異行列である。
Figure 0005537649
は、もともとの単語文書行列AのランクRの最良近似である。これは、Aの主要な構造を維持し、上位情報を無視する。は行列転置である。
式(1)において、UおよびVの列ベクトルは、次元Rの空間について正規直交基底を別々に規定する。したがって、A中の単語ベクトルは行列Vの列ベクトルの正規直交基底上に投影される一方、A中の文書ベクトルは行列Uの列ベクトルの正規直交基底上に投影される。この事実に基づいて、単語文書行列中の各単語は行列USの行ベクトルとして表現することができ、各文書は行列VSの行ベクトルとして表現することができる。つまり、LSA空間において、単語wはR次元ベクトルuSとして表現することができ、文書dはR次元ベクトルvSとして表現することができる。行列USの行ベクトルの次元はRであって、これは、語彙Mのもともとのサイズよりはるかに小さい。一方、VSの行ベクトルの次元もまたRであって、これはもともとの文書数Nよりはるかに小さい。
LSA空間中のベクトルとして単語を表現するので、LSA空間におけるそれらの特徴ベクトルの間の角度のコサイン、つまり
Figure 0005537649
として2単語間の類似度を計算することができる。同じ方法で、2文書間の類似度を次のように計算することができる:
Figure 0005537649
Figure 0005537649
すなわち行列Aの追加の列ベクトルとして表現される新規文書があると仮定する。
この新規文書もまた、LSA空間中の特徴ベクトル:
Figure 0005537649
に変換することができる。
LSA空間では、単語と文書の間の意味論的なアソシエーション(association)についても、次のように2つのベクトルの角度のコサインによって計算することができる:
Figure 0005537649
上記は、BoW LSA特徴空間が単語間、文書間、あるいは単語と文書の間の関係を分析するための非常に強力なツールであることを示している。
上記の既知の方法は、音声処理においても用いられてきた。統計的音声認識タスクは、観測された音声フレームXから、最大事後確率を持つ単語列すなわち
Figure 0005537649
をベイズ判定ルールすなわち、
Figure 0005537649
により見つけることである。
LMには、単語列Wの事前確率を提供するという役割がある。従来の統計的音声認識装置は、n−gram LMを用いる。これは、各単語が単語列中の前のn−1単語に左右されること、つまり
Figure 0005537649
であることを仮定している。
統計的言語モデルに対し、さらに意味論的な知識を組み込む意味論的言語モデルの試みもなされてきた。上記のように、LSAは意味論的言語モデルにおいて用いることができる。
n−gram履歴、および意味論的な情報を含んだ文書dが与えられたとすると、現在の単語の確率は次のように表現することができる:
Figure 0005537649
一方、
Figure 0005537649
である。したがって、式8は次のように書き直すことができる:
Figure 0005537649
式10において、p(w|d)の計算は、式5に示されるLSA特徴空間における単語wと文書dの特徴ベクトル間の近似(closeness)に基づく。2つのベクトルの間の距離を確率に写像するためには、なんらかの方法を採用する必要がある。考えられる方法としては、J.R. Bellegarda "Exploiting Latent Semantic Information in Statistical language modelling" Proc. IEEE, vol. 88 no. 8, pp. 1279-1296, 2000に説明されている。
図2は、本発明の実施形態によるインデクシング方法を示すフローチャートである。
まず、ステップS101では、本方法を用いてインデクシングがなされるデータファイルを収集する。例えば、本システムが文書検索に用いられる場合、検索される文書は本方法によってインデクシングがなされる。
次に、ステップS103では単語対を得る。得られた単語対は記憶される。上記の例において、2つのシンプルなテキスト文書を得る。
文書1「I WANT TO BUY TEN PIECES OF SUSHI AND TAKE THEM HOME」
文書2「IT INCLUDES SUSHI SOUP AND FRUIT」
これらの2つのテキスト文書に基づいて、次の単語対は識別することができる。

[1 "BUY_NULL", 2 "BUY_FRUITS",3 "BUY_HOME",4 "BUY_I",5 "BUY_INCLUDES",6 "BUY_PIECES",7 "BUY_SOUP",8 "BUY_SUSHI",9 "BUY_TAKE", 10 "BUY_TEN", 11 "BUY_THEM",12 "BUY_WANT",13 "FRUITS_NULL",14 "FRUITS_HOME",15 "FRUITS_I",16 "FRUITS_INCLUDES",17 "FRUITS_PIECES",18 "FRUITS_SOUP",19 "FRUITS_SUSHI",20 "FRUITS_TAKE",21 "FRUITS_TEN",22 "FRUITS_THEM",23 "FRUITS_WANT",24 "HOME_NULL",25 "HOME_I",26 "HOME_INCLUDES",27 "HOME_PIECES",28 "HOME_SOUP",29 "HOME_SUSHI",30 "HOME_TAKE",31 "HOME_TEN",32 "HOME_THEM",33 "HOME_WANT",34 "INCLUDES_NULL",35 "INCLUDES_PIECES",36 "INCLUDES_SOUP",37 "INCLUDES_SUSHI",38 "INCLUDES_TAKE",39 "INCLUDES_TEN",40 "INCLUDES_THEM",41 "INCLUDES_WANT",42 "I_NULL",43 "I_INCLUDES",44 "I_PIECES",45 "I_SOUP",46 "I_SUSHI",47 "I_TAKE",48 "I_TEN",49 "I_THEM",50 "I_WANT",51 "PIECES_NULL",52 "PIECES_SOUP",53 "PIECES_SUSHI",54 "PIECES_TAKE",55 "PIECES_TEN",56 "PIECES_THEM",57 "PIECES_WANT",58 "SOUP_NULL",59 "SOUP_SUSHI",60 "SOUP_TAKE",61 "SOUP_TEN",62 "SOUP_THEM",63 "SOUP_WANT",64 "SUSHI_NULL",65 "SUSHI_TAKE",66 "SUSHI_TEN",67 "SUSHI_THEM",68 "SUSHI_WANT",69 "TAKE_NULL",70 "TAKE_TEN",71 "TAKE_THEM",72 "TAKE_WANT",73 "TEN_ NULL ",74 "TEN_THEM",75 "TEN_WANT",76 "THEM_THEM",77 "THEM_WANT",78 "WANT_NULL"]
上記には78の異なる単語対がある。したがって、各文書は78エントリのベクトルによって表わすことができる:
[1,0,1,1,0,1,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,1,1,0,1,0,1,1,1,1,1,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,1,0,1,1,1,1,1,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
[0,0,0,0,0,0,0,0,0,0,0,0,1,0, ,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 1,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0, 0,0,0,0,1,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
原則として、全文書中について起こり得る単語対が単語対辞書内にすべて集められ、単語対の数に相当する成分を持つベクトルが計算され得る。しかしながら、起こり得る単語対の数は大きすぎることから、単語対の数を削る(prune)ことが望ましい。単語対の数を減らすために、選択された単語対を共に強く関連させるものとする。2単語間のアソシエーション(例えば次のように表現することができる平均相互情報量(AMI))を計算するいくつかの広く用いられている方法がある:
Figure 0005537649
ここで、
Figure 0005537649
は、文書においてwは出現しないがwが出現する確率を意味する。
2単語間のアソシエーションもまたBoW法に基づいたLSAを用いて計算することができる。セクション6aで説明されるように、BoWに基づくLSA特徴空間において、2つの単語の特徴ベクトルが近い場合、これらの2つの単語が同じ文書中に頻繁に出現することを意味する。したがって、式2は2つの単語のアソシエーションを測定するのに用いることができる。
一方、{「a」,「the」}のように、一般的な用語間には、意味論的な情報はあまり含まれない。したがって、一般語を含んだ単語対は選択されるべきでない。単語の汎化度合は、文献出現頻度の逆数(IDF:inverse document frequency)値を用いて測定することができる。
上記の議論に基づき、文書dが与えられると、これに対応する単語対が次のように選択される。
Figure 0005537649
ここで、アソシエーション(w,w)は2つの単語のアソシエーションのある種の測定であって、AMI、すなわちBoW特徴空間あるいは他の測定における2つの単語の特徴ベクトルの距離であってもよい。αとβは経験的なしきい値である。
上記2つの短い文書の例:
・"I WANT TO BUY TEN PIECES OF SUSHI AND TAKE THEM HOME"
・"IT INCLUDES SUSHI SOUP AND FRUIT"
では、単語対プルーニング(pruning)の前に、BoWPの辞書には78のエントリーが存在する。プルーニングの後は、次の通り、辞書にはわずか16のエントリーしか含まれない:
[1 "BUY_NULL",2 "BUY_INCLUDES",3 "BUY_PIECES",4 "FRUITS_NULL",5 "FRUITS_PIECES",6 "FRUITS_SOUP",7 "FRUITS_SUSHI",8 "INCLUDES_NULL",9 "INCLUDES_PIECES",10 "INCLUDES_SUSHI",11 "PIECES_NULL", 12 "PIECES_SOUP",13 "PIECES_SUSHI",14 "SOUP_NULL",15 "SOUP_SUSHI",16 "SUSHI_NULL"]
ステップS105で除去された単語対を用いて、各文書は16成分のベクトルによって表わされる:
[1,0,1,0,0,0,0,0,0,0,1,0,1,0,0,1]
[0,0,0,1,0,1,1,1,0,1,0,0,0,1,1,1]
その後、単語対と文書の共起行列がステップS109で構築される。この行列の各列は文書を表わし、該行列の各行は単語対に関連付けられる。単語対および文書の共起行列を以下に示す:
Figure 0005537649
上記の共起行列において、セルa(w,w,n)は、単語対「w,wj」が文書nで出現した正規化頻度を表わす。すなわち、
Figure 0005537649
である。
ここで、ε(w,w)は「w,w」の正規化エントロピーである。すなわち、
Figure 0005537649
である。
単語対および文書の共起行列
Figure 0005537649
が与えられると、SVD演算が実行されてBoWPのLSA特徴空間が生成される。つまり、
Figure 0005537649
である。
式10において、
Figure 0005537649
は、R個の最大特異値についてR×Rの対角行列である。
Figure 0005537649
は、それぞれ、左特異ベクトルおよび右特異ベクトルである。
BoWPのLSA特徴空間において、行列
Figure 0005537649
の各行ベクトルは、LSA空間中の単語対すなわち、
Figure 0005537649
を表す。
ここで、行(w,w)は、単語対文書共起行列中の単語対「w」の行番号を表わす。
一方、各文書もやはり、行列
Figure 0005537649
の列ベクトルとして表わされる。
従って、上記は、データファイル(上記の例における文書)が本発明の実施形態に従う方法を用いてどのようにインデクシングすることができるかを説明している。
上記ではデータファイルを文書としたが、データファイルは、画像データファイルであってもよく、マシンあるいは任意のモニタ装置からの遠隔測定データ、測定結果、記録、メーターの示度であってもよい。
したがって、上記の方法はインデックスがファイルベクトルによって提供されるデータベースにおいてファイルをインデクシングするのに用いることができる。
図3は本発明の実施形態に従うデータファイルの検索方法を示す。不必要な説明の反復を避けるために、同等の特徴には同等の参照数字を用いる。
ステップS111において、システムが検索クエリーを受信する。さまざまなタイプの検索クエリーの例について後に説明する。
まず、ステップS113においてクエリーを文書の形式に変換する場合について検討する。新規文書Dは、BoWB LSAにおける特徴ベクトルとして、
Figure 0005537649
のように表すことができる。このクエリー(ここでは文書形式)は行列と比較することができる。例えば:
Figure 0005537649
である。
その後、検索結果をステップS117において出力することができる。
ステップS115においては、上述したように、クエリーの形で入力された文書を単語対ベクトルと比較し、あるいは、単語対の形で入力された文書を行列中の文書と比較するのに上記を利用してもよい。
さらに、上記を利用して単語対を比較してもよい。単語対の比較は、クラスター化および多義性への応用がある。
ここで、BoWPの2つの応用例を示す。
最初の例は情報検索IRである。BoWPを用いるIRのフレームワークを図4に示す。ステップS203において、まずは図2を参照して説明したように大量の文書を含んだ文書プール201を用いて単語対および文書共起行列が構築される。
次にステップS205では、この単語対および文書共起行列においてSVD演算が実行され、BoWPに基づくLSA特徴空間207が生成される。この特徴空間では、文書プール中の各文書はLSA特徴ベクトルとして表わされる。
テキストクエリー209が与えられると、単語対辞書を用いてBoWP特徴211が生成される。次に、このBoWP特徴は新規文書ベクトルとしてLSA特徴空間213に投影される。次に、LSA特徴空間207における文書の特徴ベクトルとクエリーの特徴ベクトル213の間の距離に基づいて、文書プール201中でクエリーのトピックと一致する文書が選択され、該選択された文書215が出力される。
第2の応用例は、自動音声認識(ASR)あるいはテキスト音声合成システム(TTS)のためのドメイン依存言語モデルである。ここで、BoWP法は、大きな一般的コーパスから専門トレーニングコーパスを自動的に選択するのに用いられる。
コーパス(例えば、ASRシステムをトレーニングするためにユーザーが読み込むテスト・コーパス)がクエリーとして用いられ、クエリーと同じ意味論的な情報を持つドメイン依存コーパスが一般コーパスから選択される。該ドメイン依存コーパスは、音声認識のためのLMをトレーニングするのに用いられる。
実験フレームワークを図5に示す。データ選択は、図4に示した情報検索の処理として見ることができる。インドメイン・クエリー301は、一般コーパス305からのドメイン依存文書303の選択を行なうために提供される。例えば、処理すべき音声のドメインすなわち主題が「観光旅行」である場合、大きな一般コーパスからのクエリーと同じドメイン情報を持つテキストコーパスを選択するためのクエリーQとして、観光旅行に関係のあるインドメイントレーニングコーパスを用いることができる。
その後、言語モデル(Language model)307は、選択されたデータ303によってトレーニングされる。該LMは標準言語モデルであって、そのようなモデルのトレーニングは当業者によく知られているため、ここでは説明しない。典型的には、式6〜10を参照して説明したn−gram言語モデル(LM)を用いる。
モデル307がトレーニングされると、該モデルは音声認識システム309において音響モデルと共に用いることができる。
このシステムをテストするために、BoW法とBoWP法をそれぞれ用いてデータ選択が行なわれる。異なる方法に基づいて選択されたドメイン依存コーパスを用いることにより、2単語に基づくtrigram LMがトレーニングされる:
・MBoW。これは、BoWデータ選択に基づいたコーパスによってトレーニングされたLMである。
・MBoWP。これは、BoWPデータ選択に基づいたコーパスによってトレーニングされたLMである。
LMの「良好度」を評価するにはいくつかの方法がある。音声認識の目的では、あるLMを用いて達成された認識誤り率は最も重要な基準である。認識率に加えて、LMを評価するための最も一般的なメトリックはクロス・エントロピーすなわちパープレキシティ(perplexity)である。テスト集合WおよびLM mが与えられると、Wとmの間のクロス・エントロピーは、
Figure 0005537649
のように規定される。ここで、Nはテスト集合の長さである。また、p(W)はLM mによって計算されたテスト集合Wの確率である。テスト・データを情報源から発したテキストであると見なす場合、クロス・エントロピーは情報源から発したテキストの分布をLMがいかに良く推定しているかを示すものであることが分かる。テキストWが与えられる場合、LM mのパープレキシティは、
Figure 0005537649
のように規定される。この定義によれば、パープレキシティは低い方が好ましいことが分かる。
BoWとBoWPの性能を比較するために2つの評価を行った。最初の評価は、パープレキシティの比較である。MBoWとMBoWPを用いてクエリーQのパープレキシティを計算した。パープレキシティがより低いことは、選択されたコーパスがクエリーとよく一致することを意味する。結果を表1に示す。
Figure 0005537649
表1は、bag−of−wordpair法を用いて選択されたコーパスのサイズがbag−of−word法によって選択されたもののたった半分であることを示している。一方、bag−of−wordpairsに基づく混合LMのパープレキシティの結果は、bag−of−word法に基づくものより優れている。この結果は、bag−of−wordpairs法がbag−of−words法より正確に意味論的な情報を捉えていることを意味する。
第2に、ASRを実験した。上述のLMを用いて音声認識を行った。その結果を表2に示す。
Figure 0005537649
表2において、第1行は一般的なLMの結果である。ギガワードのコーパスと観光旅行の間にドメインのミスマッチがあることから、一般LMは結果がきわめて悪い。第2および第3の行は、それぞれ、BoWデータ選択LMおよびBoWPデータ選択LMの結果である。これらの結果は、意味論的なデータ選択に基づいたLMは、認識率を著しく改善できることを示した。BoW法に基づいたLMとBoWP法に基づいたLMでは同様の結果となった。
しかし、BoWデータ選択によるLMとBoWPデータ選択によるLMとを補間することにより、BoWデータ選択のみのLMより優れた結果を得ることができる。このことは、BoWPはBoW法を超えて何らかの複雑な意味論的な情報を捕らえていることを意味する。
BoW法によって選択されたデータを用いてトレーニングされたLMは、P(w| h,Data_BoW)、すなわちn−gram履歴h、BoWに基づいて選択されたトレーニングデータ:Data_BoWの場合の単語wの条件付き確率として表現することができる。
BoWPデータ選択を用いてトレーニングされたLMは、P(w| h,Data_BoWP)のように表現することができる。
これらの2つのLMは線形補間によって組み合わせることができる。つまり、新しいLMを生成できるのであって、これは、λ×P(w| h,Data_BoW) + (1-λ)×P(w| h,Data_BoWP)のように表すことができる。ここで、λは補間ウェイトである。この補間ウェイトは、精度を最大化するように選択され得る。
式10に従ってp(w|d)の確率を得るために言語モデルをトレーニングする場合に、BoW法またはBoWP法をそのまま用いることも可能である。
以上では、ASRにおける言語モデルの使用について説明したが、TTS、OCRシステム、手書き文字認識についても言語モデルを用い、同様の方法でトレーニングしてもよい。上記は、同時通訳システムに用いられてもよい。
上記説明は、データファイルが文書またはコーパスであり、特徴は単語である場合を念頭に置いた。しかし、図1〜図4を参照して説明した方法は、様々なタイプのデータファイル(例えば画像)に適用することができる。画像処理において、画像は、画像の一領域あるいは複数の領域を表すコードに対応するコードワードによって表わされ、これらのコードワードはコードブックを形成する。該コードワードを上記の例における単語として扱い、画像ファイルを文書として扱ってもよい。

Claims (12)

  1. 各データファイルが複数の特徴を含む複数のデータファイルをコンピュータが検索する方法であって、
    各特徴グループがn個(nは2以上の整数)の特徴を含む複数の特徴グループを決定すること;
    各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現することであって、この場合において一の特徴グループを構成する前記n個の特徴は互いに隣接するように位置付けられる必要がなく;
    前記特徴グループをベクトルとして用いることにより検索クエリーを表現すること;および
    ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索すること、を含む方法。
  2. 前記検索クエリーがファイルベクトルとして表現される請求項1の方法。
  3. 前記比較は、前記検索クエリーの前記ファイルベクトルと前記データファイルの前記ファイルベクトルの間のセパレーションを決定することにより行なわれる請求項2の方法。
  4. 前記データファイルは文書、音声処理用コーパス、画像データファイルから選択される請求項1の方法。
  5. 前記特徴は、単語、句、画像中のコードワードのいずれかである請求項1乃至4のいず れかの方法。
  6. 各特徴グループが特徴対(n=2)である請求項1乃至のいずれかの方法。
  7. 複数の特徴グループを決定することは、前記特徴グループにおける特徴間のアソシエーションに基づいて全特徴グループから特徴グループを削ることを含む請求項1乃至のいずれかの方法。
  8. 複数の特徴グループを決定することは、文書中で頻繁に繰り返される特徴を含んだ特徴グループを削除することを含む請求項1乃至のいずれかの方法。
  9. 前記ファイルベクトルは行列で構成され、前記行列は因数分解される請求項1乃至のいずれかの方法。
  10. 特定の主題に関する音声の処理のためにコンピュータがトレーニングコーパスを選択する方法であって、
    複数の一般トレーニングコーパスを提供すること;
    前記特定の主題に関する少なくとも1つのデータファイルを入力すること;および
    請求項1乃至8のいずれかの方法を用いて、前記複数の一般トレーニングコーパスから前記主題に関するコーパスを検索することを含み、検索クエリーは前記特定の主題に関するデータファイルであり、検索される前記複数のデータファイルは、前記複数の一般トレーニングコーパスである方法。
  11. 請求項1乃至10の方法を実行するようにコンピュータを制御するためのプログラム。
  12. 各データファイルが複数の特徴を含む複数のデータファイルを検索するための装置であって、該装置は、
    各特徴グループがn個(nは2以上の整数)の特徴を含む複数の特徴グループを決定し;
    各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現し、この場合において一の特徴グループを構成する前記n個の特徴は互いに隣接するように位置付けられる必要がなく;
    前記特徴グループをベクトルとして用いることにより検索クエリーを表現し;および
    ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索するように構成されたプロセッサを具備する装置。
JP2012505214A 2009-04-16 2009-04-16 データ検索およびインデクシングの方法および装置 Expired - Fee Related JP5537649B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/GB2009/000977 WO2010119233A1 (en) 2009-04-16 2009-04-16 A data retrieval and indexing method and apparatus

Publications (2)

Publication Number Publication Date
JP2012524314A JP2012524314A (ja) 2012-10-11
JP5537649B2 true JP5537649B2 (ja) 2014-07-02

Family

ID=41213186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012505214A Expired - Fee Related JP5537649B2 (ja) 2009-04-16 2009-04-16 データ検索およびインデクシングの方法および装置

Country Status (4)

Country Link
US (1) US9223850B2 (ja)
JP (1) JP5537649B2 (ja)
GB (1) GB2482630B (ja)
WO (1) WO2010119233A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
JP5914054B2 (ja) * 2012-03-05 2016-05-11 日本放送協会 言語モデル作成装置、音声認識装置、およびそのプログラム
US8996371B2 (en) * 2012-03-29 2015-03-31 Nice-Systems Ltd. Method and system for automatic domain adaptation in speech recognition applications
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9519858B2 (en) * 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
US9727619B1 (en) * 2013-05-02 2017-08-08 Intelligent Language, LLC Automated search
US9251139B2 (en) * 2014-04-08 2016-02-02 TitleFlow LLC Natural language processing for extracting conveyance graphs
US9734144B2 (en) * 2014-09-18 2017-08-15 Empire Technology Development Llc Three-dimensional latent semantic analysis
US9665628B1 (en) 2015-12-06 2017-05-30 Xeeva, Inc. Systems and/or methods for automatically classifying and enriching data records imported from big data and/or other sources to help ensure data integrity and consistency
US10586528B2 (en) * 2017-02-02 2020-03-10 Adobe Inc. Domain-specific speech recognizers in a digital medium environment
US11567914B2 (en) 2018-09-14 2023-01-31 Verint Americas Inc. Framework and method for the automated determination of classes and anomaly detection methods for time series
US11334832B2 (en) 2018-10-03 2022-05-17 Verint Americas Inc. Risk assessment using Poisson Shelves
KR102659494B1 (ko) * 2019-01-21 2024-04-23 삼성전자주식회사 전자 장치 및 그 제어 방법
EP3706017A1 (en) 2019-03-07 2020-09-09 Verint Americas Inc. System and method for determining reasons for anomalies using cross entropy ranking of textual items
IL288669B1 (en) * 2019-06-18 2024-04-01 Verint Americas Inc Identifying anomalies in textual items using cross entropies
US11308090B2 (en) 2019-12-26 2022-04-19 Snowflake Inc. Pruning index to support semi-structured data types
US11681708B2 (en) 2019-12-26 2023-06-20 Snowflake Inc. Indexed regular expression search with N-grams
US11372860B2 (en) 2019-12-26 2022-06-28 Snowflake Inc. Processing techniques for queries where predicate values are unknown until runtime
US10769150B1 (en) * 2019-12-26 2020-09-08 Snowflake Inc. Pruning indexes to enhance database query processing
US11567939B2 (en) 2019-12-26 2023-01-31 Snowflake Inc. Lazy reassembling of semi-structured data
US10997179B1 (en) 2019-12-26 2021-05-04 Snowflake Inc. Pruning index for optimization of pattern matching queries
US11610581B2 (en) * 2021-02-05 2023-03-21 International Business Machines Corporation Multi-step linear interpolation of language models
US11880369B1 (en) 2022-11-21 2024-01-23 Snowflake Inc. Pruning data based on state of top K operator

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
JP3921837B2 (ja) * 1998-09-30 2007-05-30 富士ゼロックス株式会社 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
US6360215B1 (en) * 1998-11-03 2002-03-19 Inktomi Corporation Method and apparatus for retrieving documents based on information other than document content
JP2000137718A (ja) * 1998-11-04 2000-05-16 Nippon Telegr & Teleph Corp <Ntt> 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体
US7424150B2 (en) * 2003-12-08 2008-09-09 Fuji Xerox Co., Ltd. Systems and methods for media summarization
US7551780B2 (en) * 2005-08-23 2009-06-23 Ricoh Co., Ltd. System and method for using individualized mixed document
US8010534B2 (en) * 2006-08-31 2011-08-30 Orcatec Llc Identifying related objects using quantum clustering
US7831587B2 (en) * 2007-05-10 2010-11-09 Xerox Corporation Event hierarchies and memory organization for structured data retrieval
US20130262467A1 (en) * 2010-12-23 2013-10-03 Nokia Corporation Method and apparatus for providing token-based classification of device information

Also Published As

Publication number Publication date
JP2012524314A (ja) 2012-10-11
WO2010119233A1 (en) 2010-10-21
GB2482630B (en) 2014-12-24
US9223850B2 (en) 2015-12-29
GB2482630A (en) 2012-02-08
US20120109651A1 (en) 2012-05-03
GB201119833D0 (en) 2011-12-28

Similar Documents

Publication Publication Date Title
JP5537649B2 (ja) データ検索およびインデクシングの方法および装置
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN106970910B (zh) 一种基于图模型的关键词提取方法及装置
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN110750640B (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN106844632B (zh) 基于改进支持向量机的产品评论情感分类方法及装置
CN107577671B (zh) 一种基于多特征融合的主题词提取方法
US20100205198A1 (en) Search query disambiguation
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
US20040162827A1 (en) Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN110688836A (zh) 基于监督学习的领域词典自动化构建方法
CN104199965A (zh) 一种语义信息检索方法
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN108509521A (zh) 一种自动生成文本索引的图像检索方法
CN106294733A (zh) 基于文本分析的网页检测方法
CN106294736A (zh) 基于关键词频率的文本特征提取方法
CN107168953A (zh) 海量文本中基于词向量表征的新词发现方法及系统
CN117421393B (zh) 一种用于专利的生成式检索方法及系统
JP2014056331A (ja) 文書分類方法、文書分類プログラム及び文書分類装置
CN115827988B (zh) 一种自媒体内容热度预测方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120413

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130820

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131021

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131205

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131212

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140425

LAPS Cancellation because of no payment of annual fees