JP5164876B2 - 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 - Google Patents

代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JP5164876B2
JP5164876B2 JP2009030461A JP2009030461A JP5164876B2 JP 5164876 B2 JP5164876 B2 JP 5164876B2 JP 2009030461 A JP2009030461 A JP 2009030461A JP 2009030461 A JP2009030461 A JP 2009030461A JP 5164876 B2 JP5164876 B2 JP 5164876B2
Authority
JP
Japan
Prior art keywords
word
concept
concept vector
document
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009030461A
Other languages
English (en)
Other versions
JP2010186349A (ja
Inventor
匡 内山
俊郎 内山
克人 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009030461A priority Critical patent/JP5164876B2/ja
Publication of JP2010186349A publication Critical patent/JP2010186349A/ja
Application granted granted Critical
Publication of JP5164876B2 publication Critical patent/JP5164876B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、単語、新聞記事、ウェブ等の文書を対象として文書を特徴付ける代表語を抽出するための代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に関する。
単語間の類似性を判定し、類義語を検索し、また、関連文書を検索するためのデータベースの一つとして概念ベースが用いられている。
この「概念ベース」は、単語とその単語に対応する概念ベクトルとの組からなるデータベースである。概念ベースとして、国語辞典の語義文から作成される辞書概念ベース(例えば、特許文献1参照)と、新聞記事等の文書を大量に集めたコーパスから作成されるコーパス概念ベース(例えば、非特許文献1参照)と、が知られている。
また、所定の単語の「概念ベクトル」は、上記所定の単語が属する範囲(例えば、文)内で、予め決められた複数の共起語のそれぞれと共起する頻度に応じて算出される。
概念ベースにおける共起語として、単語を辞書引きして得られる語義文中に出現する単語が用いられ、コーパス概念ベースにおける共起語として、コーパス中に高頻度で出現する単語が用いられる。各単語を行とし、共起語を列とし、単語と共起語との共起頻度を行列の成分とする共起行列を作成する。
概念ベースの場合、上記共起行列における各行の行ベクトルが単語概念ベクトルであり、通常は語義文中に含まれる単語について、孫引きすることによって得られる語義文等を用いて概念ベクトルの精錬が行われる。
コーパス概念ベースにおいて、特異値分解によって共起行列の列の次元を圧縮した行列を作成し、この圧縮した行列の行ベクトルが概念ベクトルである。このようにして作成された概念ベースは、単語間の類似性が高い程、単語の概念ベクトル間の距離が近いという性質を持つので、単語間の類似性を判定する場合に有効である。つまり、2つの単語間の概念ベクトルの距離が近い程、上記2つの単語間の類似性が高いと判断できる。
文書の概念ベクトルは、文書を形態素解析して抽出される単語の概念ベクトルの平均として定義される。文書の概念ベクトルは、単語の概念ベクトルと全く同様に取り扱うことができ、各概念ベクトル間の距離に基づいて、文書間、単語−文書間の類似性を判定することができる。
概念ベクトル間の距離を測定する測度として、Euclid距離やKullback-Leibler距離が用いられる。検索ベクトルをp→=(p,…,p)、被検索ベクトルをq→=(q,…,q)(『→』はベクトルを表す)とするとき、Euclid距離D(p→,q→)は、
Figure 0005164876
Kullback-Leibler距離DKL(p→,r→)は、
Figure 0005164876
でそれぞれ定義される。
与えられた文書概念ベクトルを上記検索ベクトルとし、被検索ベクトルとなる各単語概要念ベクトルとの距離を全ての求め、最小距離に対応する単語をこの文書を特徴付ける代表語として定める事ができる。
特許第3379603号公報
H. Schutze, "Dimensions of meaning", Proceedings of Supercomputing '92, pp.787-796, 1992年
しかしながら、文書概念ベクトルと単語概念ベクトルとの距離に基づいて、文書を特徴付ける代表語を求める方法では、一つの代表語を定める事ができるだけであり、文書をよりよく特徴付ける複数の代表語を抽出することができない。
また、特に多数の単語から構成される文書においては、代表語との関連が弱い単語の影響によって文書概念ベクトルが"鈍る"ために適切な代表語を抽出できない。
本発明は、上記の点に鑑みなされたもので、文書に適切に特徴付ける代表語を複数抽出することが可能で、また、多数の単語から構成される文書においても適切な代表語を抽出することが可能な代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出方法であって、
文書概念ベクトル入力手段が、文書の概念ベクトル(文書概念ベクトル)を取得する文書概念ベクトル取得ステップ(ステップ1)と、
距離計算手段が、単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段から該単語概念ベクトルを取得し(ステップ2)、決定済みの代表語概念ベクトルが蓄積されている代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し(ステップ3)、文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納する(ステップ4)距離計算ステップと、
代表語出力手段が、距離記憶手段に格納されている距離に基づいて、代表語を出力する代表語出力ステップ(ステップ5)と、を行う。
また、本発明(請求項2)は、距離計算ステップにおいて、
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを代表語概念ベクトルのひとつとして距離計算を行う。
図2は、本発明の原理構成図である。
本発明(請求項3)は、文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出装置であって、
単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段102と、
決定された代表語及び該代表語の概念ベクトルを蓄積する代表語概念ベクトル蓄積手段105と、
文書の概念ベクトル(文書概念ベクトル)を取得する文書概念ベクトル入力手段101と、
単語概念ベクトル蓄積手段102から取得した該単語概念ベクトルと、代表語概念ベクトル蓄積手段105から代表語概念ベクトルを取得し、文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段107に格納する距離計算手段103と、
距離記憶手段107に格納されている距離に基づいて、代表語を出力する代表語出力手段106と、を有する。
また、本発明(請求項4)は、距離計算手段103において、
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを代表語概念ベクトルのひとつとして距離計算を行う手段を含む。
本発明(請求項5)は、請求項1または2に記載の代表語抽出方法の各ステップを実行するコンピュータを機能させるための代表語抽出プログラムである。
本発明(請求項6)は、請求項5記載の代表語抽出プログラムを格納したコンピュータ読取可能な記録媒体である。
本発明では、文書概念ベクトルと単語概念ベクトルとの距離に基づいて、文書を特徴付ける一つ目の代表語を定め、代表語概念ベクトルと各単語概念ベクトルがなす線分と、文書概念ベクトルとの距離に基づいて、二つ目の代表語を定める。同様の処理を繰り返すことによって、文書をより良く特徴付ける複数の代表語を抽出することができる。
また、予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを用意しておき、これと各単語概念ベクトルがなす線分と、文書概念ベクトルとの距離に基づいて一つ目の代表語を定めることによって、多数の単語から構成される文書においても精度良く代表語を抽出することができる。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態における代表語抽出装置の構成図である。 本発明の一実施の形態における動作のフローチャートである。 本発明の一実施の形態における距離計算処理のフローチャートである。 従来技術による文書概念ベクトルと単語概念ベクトルとの距離計算を示す図である。 本発明の一実施の形態における文書ベクトルと単語概念ベクトル及び代表語概念ベクトルとの距離計算方法を示す図である。 本発明の一実施の形態における文書概念ベクトルと単語概念ベクトル及び二つの代表語概念ベクトルとの距離計算方法を示す図である。 本発明の一実施の形態における代表語抽出に用いる例文である。 本発明の一実施の形態における例文から抽出された内容語の例である。 従来技術の距離計算方法による例文からの代表語抽出結果である。 本発明の距離計算方法による例文からの第一代表語抽出結果である。 本発明の距離計算方法による例文からの第二代表語抽出結果である。 本発明の距離計算方法による例文からの第三代表語抽出結果である。 本発明の距離計算方法による例文からの第四代表語抽出結果である。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における代表語抽出装置の構成を示す。
同図に示す代表語抽出装置は、文書概念ベクトル入力部101、単語概念ベクトル蓄積部102、距離計算部103、代表語決定部104、代表語概念ベクトル蓄積部105、代表語出力部106、距離記憶部107から構成される。このうち、単語概念ベクトル蓄積部102、代表語概念ベクトル蓄積部105、距離記憶部107は、ハードディスク等の記憶媒体である。
文書概念ベクトル入力部101は、文書概念ベクトルを入力する。具体的には、端末からキーボード等により入力された単語や文書を概念ベクトルに変換し、距離計算部103に出力する。
距離計算部103は、単語概念ベクトル蓄積部102から単語概念ベクトルを読み出し、また、決定済みの代表語概念ベクトルが代表語概念ベクトル蓄積部105に格納されている場合には、当該代表語概念ベクトルを読み出す。その上で、文書概念ベクトル入力部101から入力された文書概念ベクトルと単語概念ベクトル及び代表語概念ベクトルがなす空間との距離を、全ての単語概念ベクトルについて計算し、距離記憶部107に格納する。
代表語概念決定部104は、距離記憶部107に格納されている距離を昇順にソートし、最小の距離に対応する単語を代表語とし、当該代表語と代表語の概念ベクトルを代表語概念ベクトル蓄積部105に格納する。
代表語出力部106は、最小距離が所定の閾値より小さい場合には、ここまで代表概念ベクトル蓄積部105に蓄積されている代表語を代表語抽出結果として出力する。
以下に、上記の構成の動作を説明する。
図4は、本発明の一実施の形態における動作のフローチャートである。
まず、文書概念ベクトル入力部101から入力される(ステップ201)。より具体的には、端末からキーボードを用いて入力された文書が、概念ベクトルに変換される、もしくは、文書ファイルを読み込み、これを概念ベクトルに変換する。
次に、距離計算部103は、文書概念ベクトル101から入力された文書概念ベクトルと、単語概念ベクトル蓄積部102から読み出した単語概念ベクトル及び代表語概念ベクトル蓄積部105から読み出した代表語概念ベクトルがなす空間との距離を、全ての単語概念ベクトルについて計算し、距離記憶部107に格納する(ステップ202)。具体的な距離計算の方法については後述する。
その後、代表語決定部104は、距離記憶部107に格納されている距離を昇順にソートして(ステップ203)、最小の距離に対応する単語を代表語とし(ステップ204)、代表語と代表語の概念ベクトルを代表語概念ベクトル蓄積部105に記憶する(ステップ205)。最小距離が予め定めた閾値よりも小さい場合は(ステップ206)、代表語出力部106は、代表語概念ベクトル蓄積部105に格納されているここまでに決定されている代表語を、距離が小さい順に優先順位を付与して代表語抽出結果として出力する(ステップ207)。
なお、上記のステップ206では、最小距離が所定の閾値より小さい場合を示しているが、所定回数(例えば100回)繰り返した時点における代表語を出力するようにしても良い。
上記のステップ202の距離計算部103における距離計算の方法について詳しく説明する。図5は、本発明の一実施の形態における距離計算処理のフローチャートである。
ステップ301) 距離計算部103は、単語概念ベクトル蓄積部102から一つの単語概念ベクトルを取得する。
ステップ302) ステップ301で選択された単語概念ベクトルと入力された文書概念ベクトルとの距離を計算する。
ステップ303) 代表語概念ベクトル蓄積部105から代表語概念ベクトルを読み出して、代表語が1つ以上ある場合は、ステップ306に移行し、ない場合はステップ304に移行する。
ステップ304) 代表語概念ベクトル蓄積部105から代表語概念ベクトルが取得できなかった場合は、文書概念ベクトルと単語概念ベクトルとの距離を計算する。
ステップ305) 求められた距離を距離記憶部107の配列に格納し、ステップ308に移行する。
ステップ306) ステップ305で代表語概念ベクトル蓄積部105から代表語概念ベクトルが取得できた場合は、全ての代表語概念ベクトルと文書概念ベクトルとの線形結合について、単語概念ベクトルとの距離が最小となる線形結合係数を求める。
ステップ307) ステップ306で求められた線形結合と単語概念ベクトルとの距離を計算し、ステップ305に移行する。
ステップ308) 単語概念ベクトル蓄積部102に次の単語概念ベクトルがある場合はステップ309に移行し、ない場合は当該距離計算を終了する。
ステップ309) 次の単語概念ベクトルを選択し、ステップ302に戻る。
なお、以下の説明において、各概念ベクトルは、各要素pについて以下の条件を満足するように予め正規化されているものとする。
Figure 0005164876
まず、距離計算部103は、一つ目の単語概念ベクトルを選択し(ステップ301)、選択された単語概念ベクトルと文書概念ベクトルとの距離計算を開始する(ステップ302)。
最初は、代表語が決定されていないので(ステップ303、N)、選択された一つ目の単語概念ベクトルと文書概念ベクトルとの距離を計算し、距離記憶部107に格納する(ステップ304,305)。具体的には、図6に示す従来の距離計算方法を用いて、選択された単語概念ベクトルと文書概念ベクトルとの距離を計算する。従来の距離計算は、概念ベクトルOP→=(p,…p)(「→」はベクトルを示す)と、各単語概念ベクトルOQ→=(q,…,q)との距離は、点Pと点QとのEuclid距離もしくはKullback-Leibler距離として計算される。この方法により、単語概念ベクトルと文書概念ベクトルから1つ目の代表語を決定することができる。この一つ目の代表語の概念ベクトルを代表語概念ベクトル蓄積部105に格納する。
一つ目の代表語概念ベクトルとしては、予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルとして計算し、これを代表語概念ベクトル蓄積部105に格納してもよい。これによって、各文書に共通して現われる(代表語としては不適切な)単語の影響を事前に取り除くことができる。
次の単語概念ベクトルがある場合(ステップ308、Y)は、次の単語概念ベクトルを選択し(ステップ309)、以下の処理を行う。図7は、本発明の一実施の形態における文書概念ベクトルと単語概念ベクトル及び代表語概念ベクトルとの距離計算方法を示す。
上記に示す方法により求められ、代表語概念ベクトル蓄積部105に格納されている決定済みの代表概念ベクトルをOV→とする。
単語概念ベクトル蓄積部102の単語概念ベクトルで与えられる概念と、代表語概念ベクトルで与えられる概念の混合概念に対応する混合概念ベクトルOS→=(s,…,s)を、混合度μとして、
OS→=μOS→+(1−μ)OQ→
で定義し、距離測度Dの下での、単語概念ベクトルOQ→と、文書概念ベクトルOP→及び代表語概念ベクトルOV→との距離を、
Figure 0005164876
で定義する。ここで、
Figure 0005164876
である。これによって、単語概念ベクトルOQ→から、決定済みの代表語概念ベクトルOV→の成分を除いて、文書概念ベクトルとの距離を求めることができる。
距離測度Dを、Euclid距離とした場合は、
Figure 0005164876
Kullback-Leiber距離とした場合は、
Figure 0005164876
または、
Figure 0005164876
から最適なμを求めて、混合概念ベクトルOS→と文書概念ベクトルOP→との距離
Figure 0005164876
を取得し(ステップ306、307)、距離記憶部107に格納する(ステップ305)。
また、代表語概念ベクトル蓄積部105から読み出された代表語概念ベクトルが複数ある場合は(ステップ303、Y)、
Figure 0005164876
として、上記のD(OP→,OS→)または、DKL(OP→,OS→)に代入し、最適なμ,…,μMを求めることにより、距離D(OP→,OSM→)を得ることができる(ステップ306,307)。求められた距離を距離記憶部107の配列に格納する(ステップ305)。
図8は、代表語概念ベクトル2つ(M=2)ある場合の例を示す。同図では、文書概念ベクトルPを複数の代表語概念ベクトルV,Vの線形結合で近似する例を示している。図7に示す距離計算がPS=点Pと直接V,Qとの距離であったのに対し、図8では、PS=点Pと三角形V,V,Qの距離が算出される。代表語概念ベクトルの数が増すごとに、近似の精度は向上する(距離は単調減少する)。
次に、図9に示す例文について、実際に代表語抽出を行った例を示す。
図9の例文を形態素解析して、図10に示す内容語を抽出し、各内容語の単語概念ベクトルの平均として文書概念ベクトルOP→が生成される。図6に示す従来の距離計算方法により、文書概念ベクトルOP→と、各単語概念ベクトルOQ→のKullback-Leibler距離に基づいて代表語を求める。その例を図11に示す。この例では「ただす」が例文を特徴付ける代表語として抽出されている。
一方、本発明に基づく代表語の抽出結果は、図12〜図15のようになる。距離測度としてKullback-Leibler距離を採用した。これによれば、「標準時」、「サービス」、「時報」、「閏秒」が例文を特徴付ける代表語として抽出されている。なお、図12〜図15には、距離計算時に求められた最適なμ,…,μMを合わせて示している。
上記の代表語抽出装置における代表語の抽出方法の各処理をプログラムとして構築し、代表語抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、入力された文書を特徴付ける代表語を抽出する技術に適用可能である。
101 概念ベクトル入力手段、概念ベクトル入力部
102 単語概念ベクトル蓄積手段、単語概念ベクトル蓄積部
103 距離計算手段、距離計算部
104 代表語決定手段、代表語決定部
105 代表語概念ベクトル蓄積手段、代表語概念ベクトル蓄積部
106 代表語出力手段、代表語出力部
107 距離記憶手段、距離記憶部

Claims (6)

  1. 文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出方法であって、
    文書概念ベクトル入力手段が、文書の概念ベクトル(文書概念ベクトル)を取得する文書概念ベクトル取得ステップと、
    距離計算手段が、単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段から取得した該単語概念ベクトルと、決定済みの代表語概念ベクトルが蓄積されている代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し、前記文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納する距離計算ステップと、
    代表語出力手段が、前記距離記憶手段に格納されている距離に基づいて、代表語を出力する代表語出力ステップと、
    を行うことを特徴とする代表語抽出方法。
  2. 前記距離計算ステップにおいて、
    予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを前記代表語概念ベクトルのひとつとして距離計算を行う
    請求項1記載の代表語抽出方法。
  3. 文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出装置であって、
    単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段と、
    決定された代表語及び該代表語の概念ベクトルを蓄積する代表語概念ベクトル蓄積手段と、
    文書の概念ベクトル(文書概念ベクトル)を取得する文書概念ベクトル入力手段と、
    前記単語概念ベクトル蓄積手段から取得した該単語概念ベクトルと、前記代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し、前記文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納する距離計算手段と、
    前記距離記憶手段に格納されている距離に基づいて、代表語を出力する代表語出力手段と、
    を有することを特徴とする代表語抽出装置。
  4. 前記距離計算手段は、
    予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを前記代表語概念ベクトルのひとつとして距離計算を行う手段を含む
    請求項3記載の代表語抽出装置。
  5. 請求項1または2に記載の代表語抽出方法の各ステップを実行するコンピュータを機能させるための代表語抽出プログラム。
  6. 請求項5記載の代表語抽出プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。
JP2009030461A 2009-02-12 2009-02-12 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 Expired - Fee Related JP5164876B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009030461A JP5164876B2 (ja) 2009-02-12 2009-02-12 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009030461A JP5164876B2 (ja) 2009-02-12 2009-02-12 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2010186349A JP2010186349A (ja) 2010-08-26
JP5164876B2 true JP5164876B2 (ja) 2013-03-21

Family

ID=42766965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009030461A Expired - Fee Related JP5164876B2 (ja) 2009-02-12 2009-02-12 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Country Status (1)

Country Link
JP (1) JP5164876B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6400037B2 (ja) * 2016-03-17 2018-10-03 ヤフー株式会社 判定装置、および判定方法
CN111026910B (zh) * 2018-10-09 2024-04-05 三六零科技集团有限公司 视频推荐方法、装置、电子设备及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3019286B2 (ja) * 1993-10-21 2000-03-13 シャープ株式会社 文書検索装置
JP2002230021A (ja) * 2001-01-30 2002-08-16 Canon Inc 情報検索装置及び情報検索方法並びに記憶媒体
JP2008176489A (ja) * 2007-01-17 2008-07-31 Toshiba Corp テキスト判別装置およびテキスト判別方法
JP5084341B2 (ja) * 2007-04-26 2012-11-28 株式会社リコー 文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法

Also Published As

Publication number Publication date
JP2010186349A (ja) 2010-08-26

Similar Documents

Publication Publication Date Title
JP5537649B2 (ja) データ検索およびインデクシングの方法および装置
US7424421B2 (en) Word collection method and system for use in word-breaking
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
US9256649B2 (en) Method and system of filtering and recommending documents
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN110909539A (zh) 语料库的词语生成方法、系统、计算机设备和存储介质
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
JP4997892B2 (ja) 検索システム、検索方法及び検索プログラム
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
US9652997B2 (en) Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN108153728B (zh) 一种关键词确定方法及装置
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
JP5164876B2 (ja) 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP4900947B2 (ja) 略語抽出方法、略語抽出装置およびプログラム
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP4479745B2 (ja) 文書の類似度補正方法、プログラムおよびコンピュータ
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
JP6427480B2 (ja) 画像検索装置、方法、及びプログラム
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
JP2013045415A (ja) 話題語獲得装置、方法、及びプログラム
JP5213742B2 (ja) 概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5164876

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees