JP4325370B2 - 文書関連語彙獲得装置及びプログラム - Google Patents

文書関連語彙獲得装置及びプログラム Download PDF

Info

Publication number
JP4325370B2
JP4325370B2 JP2003384092A JP2003384092A JP4325370B2 JP 4325370 B2 JP4325370 B2 JP 4325370B2 JP 2003384092 A JP2003384092 A JP 2003384092A JP 2003384092 A JP2003384092 A JP 2003384092A JP 4325370 B2 JP4325370 B2 JP 4325370B2
Authority
JP
Japan
Prior art keywords
vocabulary
document
word
vector
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003384092A
Other languages
English (en)
Other versions
JP2005149014A (ja
Inventor
伸章 廣嶋
克年 大附
克人 別所
林  良彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003384092A priority Critical patent/JP4325370B2/ja
Publication of JP2005149014A publication Critical patent/JP2005149014A/ja
Application granted granted Critical
Publication of JP4325370B2 publication Critical patent/JP4325370B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書関連語彙獲得装置及びプログラムに係り、特に、文書から関連する語彙を獲得するための文書関連語彙獲得装置及びプログラムに関する。
ある文書からそれに関連する文書を獲得する方法や、ある単語の集合からそれに関連する語彙を獲得する方法については従来から研究が行われているが、文書からそれに関連する語彙を獲得する方法についてはあまり研究が行われていない。
文書からそれに関連する語彙を獲得する方法としては、シソーラスを構築する目的で文書中に含まれる関連語を抽出する方法(例えば、特許文献1参照)や、ある文書に関連する文書を検索する目的でその文書中の関連キーワードを抽出する方法(例えば、特許文献2参照)がある。
特開2003−256447 特開平11−025108
しかしながら、上記に示した方法で得られた関連語や関連キーワードは、元の文書に必ず含まれていることが前提となっており、文書内を検索して語彙を抽出しているにすぎず、文書中に出現しない語彙を獲得することはできない。そのため、例えば、ある文書に関連する文書を検索する目的でその文書から語彙を抽出できたとしても、関連する文書中に抽出した語彙が含まれていなければその関連文書を検索することができない。
また、文書を単語に分割して単語の集合を獲得し、単語の集合からそれに関連する語彙を獲得するという方法も考えられるが、単語の集合からそれに関連する語彙を獲得する方法を適用する場合には、その単語の集合は予め特定の分野の正しいキーワードが与えられることが前提となっているだけでなく、獲得できる語彙も特定の分野であることが前提となっているのに対し、文書を単語に分割してできる単語の集合には分野に無関係な単語が含まれていたり、もとの文書に誤りが含まれる場合には単語の集合にも誤りが含まれていたり、文書に複数の分野が関連していたりすることもあり得るため、文書を単語に分割してできる単語の集合をそのまま入力として関連する語彙を獲得する方法を適用することはできない。
本発明は、上記の点に鑑みなされたもので、複数の分野に関連している文書や、音声認識結果のように多少の誤りを含むような文書であっても、その文書から関連する語彙を獲得することができ、さらに、獲得された語彙はもとの文書中に出現しないものを含むような文書関連語彙獲得装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明は、文書から該文書に関連する語彙を獲得する文書関連語彙獲得方法であって、
入力された文書を単語に分割する単語分割ステップ(ステップ1)と、
単語の意味を表現するベクトルが格納されている概念ベースを検索することによって単語分割ステップで得られた各単語に対応するベクトルを取得する単語ベクトル取得ステップ(ステップ2)と、
単語ベクトル取得ステップで得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリングステップ(ステップ3)と、
単語クラスタリングステップで得られた各クラスタをもとに、単語が多く含まれている順に上位Q個(ただし、1以上)以内のクラスタを選択し、選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出ステップ(ステップ4)と、
文書分野ベクトル算出ステップで得られた文書分野ベクトルと、予め作成しておいた語彙データベース中の各語彙の分野を表す語彙分野ベクトルから、ベクトル間の距離をそれぞれ求め、該語彙からみて最も近い距離を、入力された文書と該語彙との間の関連性を示す語彙関連度として、各語彙について求める語彙関連度算出ステップ(ステップ5)と、
語彙関連度算出ステップで得られた関連度をもとに語彙を順位付けする語彙順位付けステップ(ステップ6)と、
語彙順位付けステップで得られた語彙に関する順位をもとに関連語彙を出力する関連語彙出力ステップ(ステップ7)を行う。
また、本発明は、文書分野ベクトル算出ステップ(ステップ4)において、
入力文書が音声認識結果である場合、各単語に付与されている、該単語が正しく音声認識されているのかの程度を表す信頼度を重みとして、クラスタに含まれる各単語の単語ベクトルの加重平均によって文書分野ベクトルを求める。
図2は、本発明の原理構成図である。
本発明は、文書から該文書に関連する語彙を獲得する文書関連語彙獲得装置であって、
単語の意味を表現するベクトルが格納されている概念ベース8と、
入力された文書を単語に分割する単語分割手段1と、
概念ベース8を検索することによって単語分割手段1で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段2と、
単語ベクトル取得手段2で得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリング手段3と、
単語クラスタリング手段3で得られた各クラスタをもとに、単語が多く含まれている順に上位Q個(ただし、1以上)以内のクラスタを選択し、選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出手段4と、
文書分野ベクトル算出手段4で得られた各文書分野ベクトルと、予め作成しておいた語彙データベース9の中の各語彙の分野を表す語彙分野ベクトルから、ベクトル間の距離をそれぞれ求め、該語彙からみて最も近い距離を、入力された文書と該語彙との間の関連性を示す語彙関連度として、各語彙について求める語彙関連度算出手段5と、
語彙関連度算出手段5で得られた関連度をもとに語彙を順位付けする語彙順位付け手段6と、
語彙順位付け手段6で得られた語彙に関する順位をもとに関連語彙を出力する関連語彙出力手段7と、を有する。
また、本発明の文書分野ベクトル算出手段4は、
入力文書が音声認識結果である場合、各単語に付与されている、該単語が正しく音声認識されているのかの程度を表す信頼度を重みとして、クラスタに含まれる各単語の単語ベクトルの加重平均によって文書分野ベクトルを求める手段を有する。
本発明は、請求項1または2に記載の文書関連語彙獲得装置を構成する各手段としてコンピュータを機能させるための文書関連語彙獲得プログラムである。
本発明は、入力された文書から得られた単語をクラスタリングして分野毎にクラスタを作成し、そのクラスタから文書の属する分野を推定するため、文書から得られた単語の中に誤りを含んでいたり、分野に関係のない単語が存在していたりしても、それらの単語は無視され、正しく分野を推定することができ、その結果適切な関連語彙を獲得することができる。
また、文書が複数の分野に属するような場合でも、複数のクラスタから複数の分野を推定することができる。さらに、予め大量の語彙を用意しておいき、その中から文書の分野に近い語彙を獲得するため、文書中に含まれていない語彙を獲得することができる。このようにして獲得した語彙は、文書検索における関連文書の検索などに役立てることができる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における文書関連語彙獲得装置の構成を示す。
同図に示す関連文書語彙獲得装置は、単語分割部1、単語ベクトル取得部2、単語クラスタリング部3、文書分野ベクトル算出部4、語彙関連度算出部5、語彙順位付け部6、関連語彙出力部7、概念ベース8、語彙データベース9から構成される。
単語分割部1は、入力された文書を単語に分割する。
単語ベクトル取得部2は、単語の意味を表現するベクトルが格納されている概念ベース8を検索することによって単語分割部1で得られた各単語に対応するベクトルを取得する。
単語クラスタリング部3は、単語ベクトル取得部2で得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する。
文書分野ベクトル算出部4は、単語クラスタリング部3で得られた各クラスタをもとに文書の分野を表す文書分野ベクトルを求める。
語彙関連度算出部5は、文書分野ベクトル算出部4で得られた文書分野ベクトルと、予め作成しておいた語彙データベース9中の各語彙の分野を表す語彙分野ベクトルから、入力された文書と各語彙との間の関連性を示す語彙関連度を求める。
語彙順位付け部6は、語彙関連度算出部5で得られた関連度をもとに語彙を順位付けする。
関連語彙出力部7は、語彙順序付け部6で得られた語彙に関する順位を元に関連語彙を出力する。
図4〜図8は、本発明の一実施の形態における文書関連語彙獲得装置の処理のフローチャートを示す。
図4は、本発明の一実施の形態における全体の処理を示すフローチャートである。
まず、単語分割部1により、文書を単語に分割する(ステップ100)。次に、単語ベクトル取得部2により、各単語の単語ベクトルを取得する(ステップ200)。
図5は、本発明の一実施の形態における単語ベクトル取得部の処理のフローチャートである。同図において、Nは、単語分割部1で得られた単語の数であり、Wは概念ベース8中に存在する単語数を表す。
単語ベクトル取得部2は、単語分割部1で得られた各単語に対し、その単語が概念ベース8中に存在するかどうかを調べ(ステップ220)、存在すれば、概念ベース8から単語ベクトルを取得する(ステップ230、Yes,ステップ250)。存在しなければ(ステップ230、No)、その単語を削除する(ステップ240)。この処理を全単語について行う(ステップ260,270,280)。
次に、単語クラスタリング部3により、単語のクラスタリングを行う(ステップ300)。
図6は、本発明の一実施の形態における単語クラスタリング部の処理のフローチャートである。ここで、CはI番目のクラスタ、Iはクラスタ数、Pはクラスタリングの終了条件として用いられるクラスタ数の閾値を表す。
単語クラスタリング部3は、単語ベクトル取得部2で得られたW個の単語について、それぞれ1単語からなるクラスタを作成する(ステップ310)。これらのW個のクラスタのうち、距離が最も近い二つのクラスタを求め(ステップ330)、この2つのクラスタを1つに併合してW−1個のクラスタを作成する(ステップ340,350)。このようにして二つのクラスタを1つに併合していく処理を、クラスタ数がP以下になるまで繰り返す(ステップ360)。
次に、文書分野ベクトル算出部4により、文書分野ベクトルの算出を行う(ステップ400)。
図7は、本発明の一実施の形態における文書分野ベクトル算出部の処理のフローチャートである。ここで、Iはクラスタを単語数の多い順に並べたときの番号、Qは獲得する文書分野ベクトルの数を表す。
文書分野ベクトル算出部4は、I番目に単語数の多いクラスタの重心を求め、これをI番目の文書分野ベクトルとする(ステップ420)。この処理をQ回繰り返す(ステップ430,440)。
次に、語彙関連度算出部5により、語彙関連度の算出を行う(ステップ500)。
図8は、本発明の一実施の形態における語彙関連度算出部の処理のフローチャートである。
語彙関連度算出部5は、語彙データベース9中の全ての語彙について、その語彙の語彙分野ベクトルと文書分野ベクトル算出部4で求めたQ個の文書分野ベクトルとの距離をそれぞれ求め、最も近い距離を語彙関連度とする(ステップ520,530)。この処理を全ての語彙について繰り返す。
次に、語彙順位付け部6により、語彙を語彙関連度の大きい順にソートし、語彙に順位を付与する(ステップ600)。最後に、関連語彙出力部7により、語彙関連度の大きいものから順にV個の語彙を関連語彙として出力する(ステップ700)。
以下では、具体的をあげて本実施の形態を説明する。
入力に誤りがあっても適切な文書関連語彙が獲得できることを示すため、対象とする文書として、図9に示す文書を読み上げた音声を音声認識した結果である図10に示す文書を入力とする。
まず、単語分割部1により、文書単語に分割する。分割した結果を図11に示す。
次に、単語ベクトル取得部2が、概念ベース8から各単語の単語ベクトルを取得する。表1に概念ベースの例を示す。
Figure 0004325370
概念ベース8は、ハードディスク等の記憶手段に格納され、単語毎に、f次元の単語ベクトルが付与されている。概念ベース8中の単語は、名詞や動詞、形容詞等の自立語である。概念ベース8における単語ベクトルは、意味的に類似している単語間ほど距離が近く、意味的に類似していない単語間程距離が遠くなるように値が設定されている。概念ベース8の例としては、例えば、特開平6−103315の『類似性判別装置』や、特開平7−302265の『類似性判別用データ精錬方法及びこの方法を実施する装置』で開示されているデータベースがある。
図11に示す単語のうち、概念ベース8中に存在する単語については、単語ベクトルを付与し、存在しない単語については削除する。単語ベクトル取得処理を行った結果、表2の単語の欄に記載された25個の単語について単語ベクトルが付与され、残りの単語については削除された。ここで、本実施の形態では、「ネットワーク部門」と「営業部門」という2箇所に出現する「部門」を別の単語として扱っているが、これを同一単語として一つにまとめてもよい。
Figure 0004325370
次に、単語クラスタリング部3が、単語のクラスタリングを行う。単語ベクトルが付与された25個の単語について、それぞれ1単語からなるクラスタを作成する。その結果を表2に示す。
これらの25個のクラスタのうち、距離が最も近い2つのクラスタを求め、この2つのクラスタを1つに併合して24個のクラスタを作成する。ここで、距離尺度としては、クラスタ間の類似性を表すものであれば、何を用いても構わないが、ここでは、クラスタに含まれる単語の単語ベクトルの重心間のコサイン距離を距離尺度として用いる。「NTT」、「サービス」、「部門」については、それぞれ2回ずつ出現しているが、同じ単語であれば、単語ベクトルも同じであるため、同じ単語を持つクラスタ同士の距離が1となり最も近くなる。ここでは、単語「NTT」を持つ6番目と14番目のクラスタを併合した。その結果を表3に示す。さらに、これらの24個のクラスタのうち、距離が最も近い2つのクラスタを求め、この2つのクラスタを1つに併合して23個のクラスタを作成する。このような処理を、クラスタ数が終了条件を満たすまで繰り返す。
Figure 0004325370
本実施の形態では、クラスタ数が初期状態のクラスタ数である25の半分より小さくなったとき、つまり、この場合はクラスタ数が12個になったとき終了条件としたが、これに限るものではなく、固定的に10個を終了条件としたり、初期状態のクラスタ数の30%を終了条件としてもよい。クラスタ数が12個となり、クラスタリングが終了したときのクラスタの状態を表4に示す。
Figure 0004325370
次に、文書分野ベクトル算出部4が文書分野ベクトルの算出を行う。本実施の形態では、取得する文書分野ベクトルの数を1とするが、文書が複数の分野を含むような場合には、ここで文書分野ベクトルを複数求めればよい。表4より、最も単語数が多いクラスタは1番目のクラスタであるから、このクラスタから文書分野ベクトルを求める。
クラスタに含まれる各単語の単語ベクトルの重心を文書分野ベクトルとする。本実施の形態では、文書分野ベクトルを求める際に、各単語の単語ベクトルの重みは均等であるとしたが、入力文書が音声認識結果であるような場合には、文書中の各単語に対し、その単語が正しく音声認識されているのかの程度を表す信頼度が付与されているので、クラスタ中の単語の信頼度を重みとした単語ベクトルの重心を文書分野ベクトルとしてもよい。信頼度を重みとすることで、認識誤りの単語がクラスタに含まれていても、一般に、認識誤りとなっている単語は信頼度が小さいため、重みも小さくなり、文書分野ベクトルへ及ぼす影響も小さくなる。よって、認識誤りの単語が文書分野ベクトルに及ぼす悪影響が軽減され、正しく分野を推定することができる。
次に、語彙関連度算出部5が、語彙データベース9から語彙関連度の算出を行う。語彙データベース9は、概念ベースの一種であり、意味的に類似している語彙間ほど距離が近く、意味的に類似していない語彙間ほど距離が遠くなるように語彙分野ベクトルが設定されたものである。語彙データベース9は単語ベクトル取得部2で使用した概念ベース8と整合性がとれているもの、つまり、語彙データベース9中の語彙の語彙分野ベクトルと概念ベース8中の単語の単語ベクトルにおいて、各次元が同じ意味を表しているものであればどのようなものでもよく、単語ベクトル取得部2で使用した概念ベース8そのものでもよいし、概念ベース8を利用して作成されたものでもよい。ここでは、ある語彙の語彙分野ベクトルは、大量の新聞記事などの文書中にその語彙が出現する文に対して文中に出現する単語の単語ベクトルの概念ベース8から求めてその単語ベクトルの重心を文毎の語彙分野ベクトルとし、文毎の語彙分野ベクトルの重心を語彙分野ベクトルとして求めた語彙データベース9を使用する。語彙データベース9中の全ての語彙について、その語彙の語彙分野ベクトルと文書分野ベクトル算出部4で求めた文書分野ベクトルとの距離をそれぞれ求め、最も近い距離を語彙関連度とする。本実施の形態では、文書分野ベクトルは1つであるから、単純に語彙分野ベクトルと文書分野ベクトルとの距離を語彙関連度とすればよい。語彙関連度を求めた結果を表5に示す。
Figure 0004325370
次に、語彙順位付け部6により、語彙を語彙関連度の大きい順にソートし、語彙に順位を付与する。
最後に、関連語語彙出力部7により、語彙関連度の大きいものを関連語彙として出力する。ここでは、上位20個の語彙を関連語彙として獲得した。
本実施の形態では、順位に従ってそのまま上位のものを関連語彙として獲得したが、ここで、既知の語彙を取り除いてから上位の語彙を獲得しても構わない。獲得された関連語彙を表6に示す。これにより、文書に関連した語彙が獲得されていることがわかる。
Figure 0004325370
また、上記で示した一連の動作をプログラムとして構築し、文書間連語語彙獲得装置として利用されるコンピュータにインストールし、CPU等の制御手段により実行させる、または、ネットワークを介して流通させることも可能である。
また、構築されたプログラムを文書関連語彙獲得装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、コンピュータにインストールして実行させることも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
本発明は、関連文書の検索等に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態における文書関連語彙獲得装置の構成図である。 本発明の一実施の形態における全体の処理を示すフローチャートである。 本発明の一実施の形態における単語ベクトル取得部の処理のフローチャートである。 本発明の一実施の形態における単語クラスタリング部の処理のフローチャートである。 本発明の一実施の形態における文書分野ベクトル算出部の処理のフローチャートである。 本発明の一実施の形態における語彙関連度算出部の処理のフローチャートである。 本発明の一実施の形態における入力となる音声認識誤りを含まない文書の例である。 本発明の一実施の形態における音声認識誤りを含む文書の例である。 本発明の一実施の形態における単語分割を行った結果を示す図である。
符号の説明
1 単語分割手段、単語分割部
2 単語ベクトル取得手段、単語ベクトル取得部
3 単語クラスタリング手段、単語クラスタリング部
4 文書分野ベクトル算出手段、文書分野ベクトル算出部
5 語彙関連度算出手段、語彙関連度算出部
6 語彙順位付け手段、語彙順位付け部
7 関連語彙出力手段、関連語彙出力部
8 概念ベース
9 語彙データベース

Claims (3)

  1. 文書から該文書に関連する語彙を獲得する文書関連語彙獲得装置であって、
    単語の意味を表現するベクトルが格納されている概念ベースと、
    入力された文書を単語に分割する単語分割手段と、
    前記概念ベースを検索することによって前記単語分割手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
    前記単語ベクトル取得手段で得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリング手段と、
    前記単語クラスタリング手段で得られた各クラスタをもとに、単語が多く含まれている順に上位Q個(ただし、1以上)以内のクラスタを選択し、選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出手段と、
    前記文書分野ベクトル算出手段で得られた各文書分野ベクトルと、予め作成しておいた語彙データベースの中の各語彙の分野を表す語彙分野ベクトルから、ベクトル間の距離をそれぞれ求め、該語彙からみて最も近い距離を、入力された前記文書と該語彙との間の関連性を示す語彙関連度として、各語彙について求める語彙関連度算出手段と、
    前記語彙関連度算出手段で得られた関連度をもとに語彙を順位付けする語彙順位付け手段と、
    前記語彙順位付け手段で得られた語彙に関する順位をもとに関連語彙を出力する関連語彙出力手段と、を有することを特徴とする文書関連語彙獲得装置
  2. 前記文書分野ベクトル算出手段は
    前記入力文書が音声認識結果である場合、前記各単語に付与されている、該単語が正しく音声認識されているのかの程度を表す信頼度を重みとして、前記クラスタに含まれる各単語の単語ベクトルの加重平均によって前記文書分野ベクトルを求める
    請求項1記載の文書関連語彙獲得装置
  3. 請求項1または2に記載の文書関連語彙獲得装置を構成する各手段としてコンピュータを機能させるための文書関連語彙獲得プログラム。
JP2003384092A 2003-11-13 2003-11-13 文書関連語彙獲得装置及びプログラム Expired - Fee Related JP4325370B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003384092A JP4325370B2 (ja) 2003-11-13 2003-11-13 文書関連語彙獲得装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003384092A JP4325370B2 (ja) 2003-11-13 2003-11-13 文書関連語彙獲得装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2005149014A JP2005149014A (ja) 2005-06-09
JP4325370B2 true JP4325370B2 (ja) 2009-09-02

Family

ID=34692625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003384092A Expired - Fee Related JP4325370B2 (ja) 2003-11-13 2003-11-13 文書関連語彙獲得装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4325370B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8229956B2 (en) 2005-12-09 2012-07-24 Nec Corporation Text mining device, text mining method, and text mining program
JP4931114B2 (ja) * 2006-06-29 2012-05-16 独立行政法人情報通信研究機構 データ表示装置、データ表示方法及びデータ表示プログラム
JP5135766B2 (ja) * 2006-11-09 2013-02-06 セイコーエプソン株式会社 検索端末装置、検索システムおよびプログラム
JP5226241B2 (ja) * 2007-04-16 2013-07-03 ヤフー株式会社 タグを付与する方法
JP5244452B2 (ja) * 2008-05-15 2013-07-24 日本電信電話株式会社 文書特徴表現計算装置、及びプログラム
JP5199968B2 (ja) * 2009-09-07 2013-05-15 日本電信電話株式会社 キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
JP5414614B2 (ja) * 2010-05-14 2014-02-12 日本電信電話株式会社 キーワードタイプ判定装置及びプログラム
JP5670293B2 (ja) * 2011-11-21 2015-02-18 日本電信電話株式会社 単語追加装置、単語追加方法、およびプログラム
JP6555174B2 (ja) * 2016-04-01 2019-08-07 京セラドキュメントソリューションズ株式会社 情報処理装置及びプログラム
JP6709748B2 (ja) * 2017-04-13 2020-06-17 日本電信電話株式会社 クラスタリング装置、回答候補生成装置、方法、及びプログラム
JP6857754B2 (ja) * 2020-01-27 2021-04-14 日本電信電話株式会社 回答候補生成装置、回答候補生成方法、及びプログラム
CN116226357B (zh) * 2023-05-09 2023-07-14 武汉纺织大学 一种输入中包含错误信息场景下的文档检索方法

Also Published As

Publication number Publication date
JP2005149014A (ja) 2005-06-09

Similar Documents

Publication Publication Date Title
CN108319627B (zh) 关键词提取方法以及关键词提取装置
US8356032B2 (en) Method, medium, and system retrieving a media file based on extracted partial keyword
Zouaghi et al. Combination of information retrieval methods with LESK algorithm for Arabic word sense disambiguation
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JPWO2018097091A1 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム
JP2009537901A (ja) 検索による注釈付与
JP2002510076A (ja) 言語モデルに基づく情報検索および音声認識
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
CN110750704B (zh) 一种查询自动补全的方法和装置
CN111625621B (zh) 一种文档检索方法、装置、电子设备及存储介质
JP4325370B2 (ja) 文書関連語彙獲得装置及びプログラム
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
JP2020004156A (ja) 分類方法、装置、及びプログラム
JP4333318B2 (ja) 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
CN113836938A (zh) 文本相似度的计算方法及装置、存储介质、电子装置
JP2006338342A (ja) 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
KR101860472B1 (ko) 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법
CN113220862A (zh) 标准问识别方法、装置及计算机设备及存储介质
US20190095525A1 (en) Extraction of expression for natural language processing
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP2008152641A (ja) 類似例文検索装置
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090519

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090601

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130619

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140619

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees