JP2005250762A - 辞書生成装置、辞書生成方法および辞書生成プログラム - Google Patents
辞書生成装置、辞書生成方法および辞書生成プログラム Download PDFInfo
- Publication number
- JP2005250762A JP2005250762A JP2004059073A JP2004059073A JP2005250762A JP 2005250762 A JP2005250762 A JP 2005250762A JP 2004059073 A JP2004059073 A JP 2004059073A JP 2004059073 A JP2004059073 A JP 2004059073A JP 2005250762 A JP2005250762 A JP 2005250762A
- Authority
- JP
- Japan
- Prior art keywords
- frequency table
- dictionary
- learning
- document
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】従来の類義語辞書生成は、自動処理のため、単語分割誤り、統計処理計算の歪みなどで不要な類義関係を抽出や取りこぼしがあり、また修正作業用手段がないため、修正が困難で、かつ部品表や製品名データベース等既存知識を類義語辞書に反映することができなかった。
【解決手段】学習用の文書を入力する入力手段と、入力した文書中のテキストを単語に分割する単語分割手段と、文書中の所定の範囲において同時に出現する単語の頻度統計を収集する共起頻度表生成手段と、辞書の関連性をカスタマイズするためのシソーラス情報を仮想的な頻度表に変換するシソーラス頻度表変換手段と、上記共起頻度表と仮想頻度表を統合する頻度表統合手段と、頻度表統合手段で統合された頻度表をもとに単語間の関連性を学習し、統合頻度表を圧縮して概念辞書を作成する関連性学習手段とを備える。
【選択図】図1
【解決手段】学習用の文書を入力する入力手段と、入力した文書中のテキストを単語に分割する単語分割手段と、文書中の所定の範囲において同時に出現する単語の頻度統計を収集する共起頻度表生成手段と、辞書の関連性をカスタマイズするためのシソーラス情報を仮想的な頻度表に変換するシソーラス頻度表変換手段と、上記共起頻度表と仮想頻度表を統合する頻度表統合手段と、頻度表統合手段で統合された頻度表をもとに単語間の関連性を学習し、統合頻度表を圧縮して概念辞書を作成する関連性学習手段とを備える。
【選択図】図1
Description
本発明は入力文書とは異なる表現であっても類似内容の文書が検索可能な概念検索方式の検索装置に用いられる類義語の辞書生成装置、辞書生成方法及び辞書生成プログラムに関するものである。
文書の電子化が進み、短時間で必要な情報を取得するための検索装置の重要性が増している。このような検索装置のうち、入力文書とは異なる表現であっても類似する内容をもつ文書が検索可能な概念検索方式として、文献1(「単語の連想関係に基づく情報検索システムInfoMAP、高山他、情報学基礎53-1、1999-3」)および文献2(特開平07-114572号公報)に示されたものがある。
文献1では、単語の共起関係、すなわち、ある単語が別の単語と文書中の所定範囲内(たとえば同一段落内や同一文内など)に共に出現する回数をもとに統計処理を行い、単語間の類義関係を自動的に取得する方法が開示されている。
また、文献2では、同じく単語間の共起関係をもとに各単語の特徴ベクトルを自動的に生成する方法が開示されている。
文献1および文献2に開示された手法によれば、たとえば「ワープロ」という単語の近辺に「文書」「入力」「変換」などの単語が多く出現するという傾向があり、同じく「ワードプロセッサー」という単語の近辺にも同様の単語が多く出現するという傾向があるので、これらが類似する単語であるという自動判定が可能となる。
また、文献2では、同じく単語間の共起関係をもとに各単語の特徴ベクトルを自動的に生成する方法が開示されている。
文献1および文献2に開示された手法によれば、たとえば「ワープロ」という単語の近辺に「文書」「入力」「変換」などの単語が多く出現するという傾向があり、同じく「ワードプロセッサー」という単語の近辺にも同様の単語が多く出現するという傾向があるので、これらが類似する単語であるという自動判定が可能となる。
より具体的には、各単語の概念をベクトル情報として表現し、各単語とベクトルとの対応関係を格納した概念辞書を生成する。類似文書検索を行うには、各文書を登録する際に各文書に出現する単語の概念ベクトルを合成して文書ベクトルを生成し、文書ベクトル索引に格納する。そして、検索時には検索入力文を同じく単語に分割し、検索ベクトルを生成する。さらに、上記文書ベクトル索引中の各ベクトルと検索ベクトルの類似度を計算し、類似度の高い順に検索結果を出力する。
上記のいずれの手法も自動的に類義語辞書を生成できるので、人手により類義語辞書やシソーラスを作成することなく、入力文書とは異なる表現であっても類似する内容をもつ文書が検索可能な概念検索機能を実現できることを特徴としている。
しかしながら、文献1および文献2で開示された技術には、以下のような課題がある。
まず、自動処理における精度の問題がある。自動処理であるため、人手で作成する類義語辞書ほどの精度は期待できない。具体的には、学習用テキストに対する単語分割誤り、統計処理計算における歪みなどの原因により、類義関係の取りこぼしや不要な類義関係を抽出してしまうという問題が発生していた。
まず、自動処理における精度の問題がある。自動処理であるため、人手で作成する類義語辞書ほどの精度は期待できない。具体的には、学習用テキストに対する単語分割誤り、統計処理計算における歪みなどの原因により、類義関係の取りこぼしや不要な類義関係を抽出してしまうという問題が発生していた。
次に、自動処理においては避けられない上記精度の問題を解決するためには、人手による修正作業(カスタマイズ)が必要だが、従来技術においてはカスタマイズのための手段が与えられていないため、自動処理による辞書生成結果を修正するのが困難であった。
また、同じくカスタマイズの手段が与えられていないため、設計で使用する部品表や製品名データベースのような既存の知識を自動生成される類義語辞書に反映することができなかった。
さらに、学習用のデータが少ない場合には、統計情報の信頼性が落ちるため類義関係の学習が困難であった。
本発明は上記の課題を鑑みてなされたものであり、辞書の類義関連性をカスタマイズするためユーザが作成したシソーラス情報を仮想的な頻度表に変換する仮想頻度表生成部を備えることにより、従来の統計手法により得られる類義関係をカスタマイズすることができる。
また、他の発明は部品表や製品名データベースからシソーラスを生成するシソーラス抽出部を備えることにより、既存の知識を自動生成される類義語辞書に反映することができる。
また、別個な他の発明は別の文書集合から学習した統計情報をマージするための頻度表統合手段を備えることにより、学習用のデータが少ない場合にも概念辞書を生成することができる。
また、他の発明は部品表や製品名データベースからシソーラスを生成するシソーラス抽出部を備えることにより、既存の知識を自動生成される類義語辞書に反映することができる。
また、別個な他の発明は別の文書集合から学習した統計情報をマージするための頻度表統合手段を備えることにより、学習用のデータが少ない場合にも概念辞書を生成することができる。
本発明に係る辞書生成装置は、学習用の文書を入力する入力手段と、入力した文書中のテキストを単語に分割する単語分割手段と、文書中の所定の範囲内に出現する単語の頻度統計を収集する共起頻度表生成手段と、共起頻度表をもとに単語間の関連性を学習し、共起頻度表を圧縮して概念辞書を作成する関連性学習手段とを備える辞書生成装置において、辞書の類義関連性をカスタマイズするためのシソーラス情報を仮想的な頻度表に変換するシソーラス頻度表変換手段と、上記共起頻度表と仮想頻度表を統合する頻度表統合手段とを備え、頻度表統合手段で統合された頻度表を圧縮して上記関連性学習手段が概念辞書を作成するものである。
本発明に係る辞書生成装置によれば、辞書の類義関連性をカスタマイズするためのシソーラス情報を仮想的な頻度表に変換する仮想頻度表生成部を備えることにより、統計手法により得られる類義関係をカスタマイズすることができ、共起頻度表と仮想頻度表を統合してから関連性学習処理を行うので、カスタマイズのために与えたシソーラス情報により処理対象とする単語数が増加しており、元の共起頻度表だけでは取得できなかった潜在的な関連性まで取得することができる。
実施の形態1.
図1に本発明の実施の形態1における構成図を示す。101は学習用の文書ファイル108を入力するための文書入力部である。102は入力された文書中のテキストを単語に分割するための単語分割部である。103は文書中または文書の一部において同時に出現する単語の頻度統計を収集する共起頻度表生成部である。104は辞書の類義関連性をカスタマイズするためのシソーラス情報109を入力するためのシソーラス入力部である。105はシソーラス情報を仮想的な頻度表に変換するためのシソーラス頻度表変換部である。106は上記共起頻度表生成部103で生成した共起頻度表と上記シソーラス頻度表変換部105で生成した仮想的な頻度表を統合する頻度表統合部である。107は頻度表を統計的手法により圧縮して概念辞書110を生成する関連性学習部である。
なお、シソーラス情報109は、文書入力部101で学習用の文書ファイル108を入力するに際しユーザにより人手で作成、或いは、予めアプリケーション毎にユーザにより人手で作成し保管する。
図1に本発明の実施の形態1における構成図を示す。101は学習用の文書ファイル108を入力するための文書入力部である。102は入力された文書中のテキストを単語に分割するための単語分割部である。103は文書中または文書の一部において同時に出現する単語の頻度統計を収集する共起頻度表生成部である。104は辞書の類義関連性をカスタマイズするためのシソーラス情報109を入力するためのシソーラス入力部である。105はシソーラス情報を仮想的な頻度表に変換するためのシソーラス頻度表変換部である。106は上記共起頻度表生成部103で生成した共起頻度表と上記シソーラス頻度表変換部105で生成した仮想的な頻度表を統合する頻度表統合部である。107は頻度表を統計的手法により圧縮して概念辞書110を生成する関連性学習部である。
なお、シソーラス情報109は、文書入力部101で学習用の文書ファイル108を入力するに際しユーザにより人手で作成、或いは、予めアプリケーション毎にユーザにより人手で作成し保管する。
図2は、辞書生成処理の概要を示す処理フローである。以下、図1から図10までを適宜参照しつつ辞書生成処理の概要について説明する。まずステップS201において、文書入力部101により学習用の文書ファイル108から概念辞書110登録するための文書として登録文書を読み込む。登録対象とする文書はテキスト情報を含む形式であれば何でも良い。通常の電子化されたワープロ文書やWebで公開するHTML形式の文書などが登録対象となりえる。
なお、このときユーザはシソーラス情報109を人手で作成し保管しておく。
なお、このときユーザはシソーラス情報109を人手で作成し保管しておく。
図2のステップS202において、文書入力部101により入力された文書中のテキストを単語分割部102で単語に分割する。単語に分割するための手法としては、コスト最小法などの公知の形態素解析手法を用いるものとする。これらの形態素解析手法に関しては多数の公知文献があるので、説明を省略する。
図2のステップS203において、図1の共起頻度表生成部103により文書中または文書の一部、即ち所定の範囲において同時に出現する単語の頻度統計を収集する。図3に生成した共起頻度表701の例を示す。所定の範囲は対象文書が平均的に文字数の少ないアンケート自由回答などであれば、単語間の共起をとる範囲を文書全体とする。対象文書が技術文書などの文字数の多いテキストであれば、章、節、段落などの文書構造にあわせて元テキストを分割し、単語間の共起をとる範囲をこの分割された短単位とする。また、共起範囲を文内に限定しても良いし、共起の対象を係り受け関係にある2語に絞ってもよい。
図2のステップS204において、図1のシソーラス情報入力部104により辞書の類義関連性をカスタマイズするためのシソーラス情報109を入力する。図4、図5にシソーラス情報109の例を示す。図4はカスタマイズ対象とする単語間の階層構造を示した図である。単語301「技術文書」は、単語302「論文」、単語304「仕様書」、単語305「特許」などを下位語とする上位語である。また、単語302「論文」と単語303「ペーパー」は同義語関係にある。図5は、カスタマイズ対象とする各単語間の関係を示した一覧表である。ここでは、シソーラス入力部104には図5の形式で入力するものとする。ただし、図4に示すような単語間の階層構造を示すデータであれば本発明の特徴を損なうものではなく、図5の形式に限定する必要はない。
図2のステップS205において、図1のシソーラス頻度表変換部105により上記ステップS204で入力したシソーラス情報109を仮想的な頻度表に変換する。図6に仮想頻度表401の例を示す。本発明における辞書生成装置は、共起する単語の出現傾向をもとに類似性を判定する辞書を生成する。図6に示す仮想頻度表401は、図4、図5のシソーラス情報を反映する頻度表とする。すなわち、シソーラスに出現する同義語以外の単語の数と同数の仮想単語W1〜W7に対して仮想的な共起頻度を与える。
図6で与える仮想的な共起頻度は、図4に示したシソーラスの第1階層である「技術文書」に対応する仮想単語W1に対してはすべて共通の100を与える。シソーラスの第2階層である「論文」「仕様書」「特許」に対応する仮想単語W2〜W4に対しては、それぞれの下位語と共通となるよう10を与える。このとき、兄弟関係にあたる語に対応する仮想単語に対する共起頻度は0とする。
たとえば、第2階層の最初に位置する「論文」「ペーパー」に対するW3およびW4の仮想共起頻度は0とする。「論文」と「ペーパー」とは同義語関係にあるので同一の仮想共起頻度を与える。また、第2階層の2番目に位置する「仕様書」および第3階層に位置する「要求仕様」「外部仕様」「内部仕様」に対するW2およびW4の仮想共起頻度は0とする。
最後にシソーラスの第3階層である「要求仕様」「外部仕様」「内部仕様」に対応する仮想単語W5〜W7に対して第2階層と同様にして、各単語に対してそれぞれ1を与える。 なお、ここでは階層ごとに10のべき乗となるよう仮想頻度を設定したが、この仮想頻度の設定のしかたについては図4のシソーラス情報を反映した設定となっていれば他の方法をとってもよい。
たとえば、第2階層の最初に位置する「論文」「ペーパー」に対するW3およびW4の仮想共起頻度は0とする。「論文」と「ペーパー」とは同義語関係にあるので同一の仮想共起頻度を与える。また、第2階層の2番目に位置する「仕様書」および第3階層に位置する「要求仕様」「外部仕様」「内部仕様」に対するW2およびW4の仮想共起頻度は0とする。
最後にシソーラスの第3階層である「要求仕様」「外部仕様」「内部仕様」に対応する仮想単語W5〜W7に対して第2階層と同様にして、各単語に対してそれぞれ1を与える。 なお、ここでは階層ごとに10のべき乗となるよう仮想頻度を設定したが、この仮想頻度の設定のしかたについては図4のシソーラス情報を反映した設定となっていれば他の方法をとってもよい。
図2のステップS206において、図1の頻度表統合部106により上記ステップS203で得た図3の共起頻度表と、上記ステップS204で得た図6の仮想頻度表を統合する。以下、図6から図9を参照しながら頻度表統合部106の処理について説明する。
図7は頻度表統合部106の詳細構成図である。入出力の関係を明確にするため、共起頻度表生成部103、シソーラス頻度表変換部105、および、関連性学習部107については図1における各構成部と同一の符号で示している。501は、図6に示した仮想頻度表401中に存在し図3に示した共起頻度表701中に存在しない単語の頻度情報を補完する頻度表補完部である。502は共起頻度表701と仮想頻度表401の重み付けを行なう重み付け処理部である。503は重み付け処理の結果の表を連結する表連結部である。
図8に、頻度表統合処理の詳細を示す処理フローを、また、図9に頻度表統合処理の概念を示す。まずステップS601において、図7の頻度表補完部501が図6に示した仮想頻度表401中に存在し図3に示した共起頻度表701中に存在しない単語の頻度情報を補完する。具体的には、仮想頻度表401中の単語402と共起頻度表701中の単語702を比較し、仮想頻度表401中にのみ存在する単語を検出する。検出された単語の同義語が図4のシソーラス情報中に存在すれば、その同義語の共起頻度表の値をコピーして上記検出された単語の頻度表として補完する。検出された単語の同義語がシソーラス情報において定義されていない場合には、上位語と兄弟語の共起頻度表を平均した値を検出単語の頻度として補完する。
図8のステップS602において、図7の重み付け処理部502がステップS601で補完された共起頻度表701と仮想頻度表401に対してそれぞれ重み付けの処理を行なう。具体的には、各頻度表に対して重み付けをするための所定の定数αおよびβを、各表の要素となる頻度の値に乗じて新たな重み付けをし、図9の重み付補完共起頻度表802および重み付仮想頻度表803を得る。さらにステップS603において、図7の表連結部503が上記の重み付け頻度表802,803を連結して新たな1つの頻度表804を生成する。以上で頻度表統合処理についての詳細説明を終わる。
図2に戻り、ステップS207において、図1の関連性学習部107により上記ステップS206で得た頻度表804を圧縮する。ここでは文献1に開示されている特異値分解による次元圧縮手法を説明する。特異値分解の概念図を図10に示す。特異値分解を実行する手法に関しては、公知の数値解法が多数存在するので説明を割愛する。特異値分解の結果、3つ組の行列U(901)、Σ(902)、V(903)が得られる。U(901)の左から所定のk列を切り出した行列データUkを概念辞書110として格納する。
以上説明したように本実施の形態によれば、辞書の類義関連性をカスタマイズするためのシソーラス情報を仮想的な頻度表に変換する仮想頻度表生成部を備えることにより、従来の統計手法により得られる類義関係をカスタマイズすることができる。頻度表を統合してから関連性学習処理を行うので、カスタマイズのために与えたシソーラス定義により処理対象とする単語数が増加しており、元の共起頻度表だけでは取得できなかった潜在的な関連性まで取得することができる。また、頻度表補完処理を備えることにより、元の共起頻度表にはない単語の頻度を補完して、より正確なカスタマイズを行うことができる。さらに、重み付け処理を行うことによりカスタマイズの程度を自由に調整できる。
実施の形態2.
図11に本発明の実施の形態2における構成図を示す。実施の形態1において説明した構成と同一の部分に関しては図1と共通の符号を付与して説明を省略する。1001はシソーラス情報109を、関連性学習部107により得られるベクトル情報に反映するベクトル補正部である。本実施の形態2は実施の形態1に比し、シソーラス頻度表変換部105と頻度表統合部106を備えず、代わりにベクトル補正部1001を備えている。
図11に本発明の実施の形態2における構成図を示す。実施の形態1において説明した構成と同一の部分に関しては図1と共通の符号を付与して説明を省略する。1001はシソーラス情報109を、関連性学習部107により得られるベクトル情報に反映するベクトル補正部である。本実施の形態2は実施の形態1に比し、シソーラス頻度表変換部105と頻度表統合部106を備えず、代わりにベクトル補正部1001を備えている。
図12は、実施の形態2における辞書生成処理の概要を示す処理フローである。実施の形態1の辞書生成処理と同一の処理に関しては図2と同一の符号を付与し、説明を省略する。
実施の形態1と同様にして、ステップS201からステップS203までで共起頻度表を生成する。また、ステップS204においてシソーラス入力部104がシソーラス情報109を入力する。
実施の形態1と同様にして、ステップS201からステップS203までで共起頻度表を生成する。また、ステップS204においてシソーラス入力部104がシソーラス情報109を入力する。
つぎに、ステップS207において関連性学習処理を行う。これは実施の形態1のように頻度表統合処理を行ってから関連性学習を行う場合には、予期せぬ副作用を生じる可能性があるためである。本実施の形態2においては頻度表統合処理の代替手段として、図11のベクトル補正部1001によりステップS1101においてベクトル補正処理を行う。関連性学習処理後にベクトル補正処理を行うことにより、シソーラス情報109から取得できる類義性の範囲が小さくなるが、その代わりに予期せぬ副作用を小さくできるという利点がある。
図13にベクトル補正処理の概念を示し、図14にベクトル補正処理の詳細フローを示す。ベクトル補正処理は、シソーラス情報109の上位語から下位語に向かって順次木構造をたどりながら各2語の関係に対応して、図14のステップS1701からステップS1708の処理を繰り返す。
まず図14のステップS1701において、対象とする2語が同義語として定義されているかどうかを判定する。同義語ではなく上位下位関係である場合にはステップS1705に進む。ここでは、処理対象とする単語Waと単語Wbが同義と定義されているとする。続けてステップS1702において、WaおよびWbがともに概念辞書110中にそのベクトル情報が存在しているかどうかを判定する。一方の単語が概念辞書110に存在しない場合は、ステップS1704において既存の単語のベクトル情報をそのまま新規単語のベクトル情報として概念辞書110に追加登録する。
双方の単語が概念辞書110に登録されている場合には、ステップS1703に進み、双方の単語の概念ベクトルを各語の平均ベクトルにより更新する。図13(A)に、ステップS1703における処理の概念図を示す。1601は単語Waに対する概念ベクトルであり、1602は単語Wbに対する概念ベクトルである。これらが同義であると定義されているので、平均ベクトル1603を求めて、概念辞書110内の各単語の概念ベクトルを平均ベクトル1603により更新する。
つぎに図14のステップS1705以下の処理を説明する。ここでは、処理対象とする単語Wcと単語Wdが上位下位関係であると定義されているとする。ステップS1705では、上位下位関係と定義された2単語WcとWdが双方とも概念辞書110中にベクトル情報が存在しているかどうかを判定する。一方の単語が概念辞書110に存在しない場合は、ステップS1707において既存の関連語のベクトル情報を合成し、その平均ベクトルを新規単語のベクトル情報として概念辞書110に追加登録する。ここで関連語とは、シソーラス情報109において単語間の階層関係を所定回数辿った範囲にある単語とする。
双方の単語が概念辞書に登録されている場合には、ステップS1706に進み、下位語のベクトル情報を上位語のベクトル情報に近づけるように補正する。図13(B)に、ステップS1706における処理の概念図を示す。1604は上位語Wcに対する概念ベクトルであり、1605は下位語Wdに対する概念ベクトルである。これらが上位下位関係にあると定義されているので、平均ベクトル1606を求めて、下位語であるWdの概念辞書110内の概念ベクトルを平均ベクトル1606により更新する。
以上説明したように、関連性学習処理後にベクトル補正処理を行うことにより、カスタマイズ後の概念辞書110における予期せぬ副作用を小さくすることができる。
実施の形態3.
図15に本発明の実施の形態3における構成図を示す。実施の形態1において説明した構成と同一の部分に関しては図1と共通の符号を付与して説明を省略する。1201は関連性学習部107の結果として得られる単語間の関連性をユーザに提示し、関連性定義を編集するための関連性編集部である。1202は関連性定義編集において関連なしと定義された語の概念ベクトルを補正するための、関連無ベクトル補正手段である。
なお、シソーラス入力部104は関連性編集部1201の編集結果を入力し、シソーラス頻度表変換部105はこの編集結果からのシソーラス情報を仮想的な頻度表に変換する。
図15に本発明の実施の形態3における構成図を示す。実施の形態1において説明した構成と同一の部分に関しては図1と共通の符号を付与して説明を省略する。1201は関連性学習部107の結果として得られる単語間の関連性をユーザに提示し、関連性定義を編集するための関連性編集部である。1202は関連性定義編集において関連なしと定義された語の概念ベクトルを補正するための、関連無ベクトル補正手段である。
なお、シソーラス入力部104は関連性編集部1201の編集結果を入力し、シソーラス頻度表変換部105はこの編集結果からのシソーラス情報を仮想的な頻度表に変換する。
図16は、実施の形態3における辞書生成処理の概要を示す処理フローである。実施の形態1における辞書生成処理と同一の処理に関しては図2と同一の符号を付与し、説明を省略する。実施の形態1と同様にして、ステップS201からステップS203までで共起頻度表を生成する。続けてステップS207においてステップS203で得られた共起頻度表の関連性学習処理を行う。
図16のステップS1301において、図15の関連性編集部1201により関連性定義の編集を行う。関連性編集部1201では、関連性学習した結果をもとに所定閾値以上の類似度をもつ単語の組み合わせを検出し、図17に示すような一覧表をユーザに提示する。提示した時点では、すべての語の組合せに対して図17の1403の「関連有」欄が選択されているものとする。ユーザは辞書生成装置が提示した関連語のうち、とくに同義性が強い語の組合せに対しては1405の「同義語」欄を選択し、関連性が小さいと思われる語の組合せに対しては1404の「関連無」の欄を選択する。このとき、システムが提示している単語以外の関連性を定義したい場合には、1406の新規単語追加ボタンにより編集用の一覧表に単語を追加できるものとする。
図17では簡単に編集できることを目的として、関連性の有無および同義性の有無のみ指定できる画面の例を示したが、図18に示すようにより詳細な情報を設定可能な画面としてもよい。
続けて、図16のステップS204からステップS205を経てステップS206に進み、上記ステップS1301で関連性あり、または、同義関係と定義された単語について仮想頻度表を作成し、頻度表統合処理を行う。さらにステップS1302において統合された頻度表を再度関連性学習して概念辞書110を生成する。これらの処理については実施の形態1と同様なので説明を省略する。
さらに、図16のステップS1303において、図15の関連無ベクトル補正手段1202により、上記ステップS1301で関連性なしと定義された単語についてベクトル補正処理を行う。図19に関連性なしと定義された単語のベクトル補正処理の概念図を示す。ここでは単語Waと単語WbがステップS1301において関連性なしと定義されているものとする。1801は単語Waに対する概念ベクトルであり、1802は単語Wbに対する概念ベクトルである。まず、単語Waと単語Wbの概念ベクトルの平均ベクトル1803を求める。つぎに各単語の概念ベクトルからこの平均ベクトル1803を減じたベクトル1804および1805を求め、これらのベクトルを単語WaおよびWbに対する新たなベクトルとして概念辞書110を更新する。
以上説明したように、関連性学習した結果をもとにユーザに関連語を提示して関連性定義の編集を行うことにより、カスタマイズのためのシソーラス情報定義が容易となる。
実施の形態4.
図20に本発明の実施の形態4における構成図を示す。実施の形態1において説明した構成と同一の部分に関しては図1と共通の符号を付与して説明を省略する。1901は、データベースや部品表などの既存知識1902および項目間関係情報1903からシソーラス定義情報を抽出するシソーラス抽出部である。
図20に本発明の実施の形態4における構成図を示す。実施の形態1において説明した構成と同一の部分に関しては図1と共通の符号を付与して説明を省略する。1901は、データベースや部品表などの既存知識1902および項目間関係情報1903からシソーラス定義情報を抽出するシソーラス抽出部である。
図21は、実施の形態4における辞書生成処理の概要を示す処理フローである。実施の形態1の辞書生成処理と同一の処理に関しては図2と同一の符号を付与し、説明を省略する。実施の形態1と同様にして、ステップS201からステップS203までで共起頻度表を生成する。また、ステップS2001において、図20のシソーラス抽出部1901により、シソーラス情報の抽出を行う。ここでは、図20に示した項目間関係情報1903に「地域名>県名」という項目間の上位下位関係が記述されているとする。この記述をもとに、データベース1902中に格納されている該当項目のデータをシソーラス情報として抽出する。ここでは、地域名「関東」「関西」などと、県名の「神奈川」「東京」「大阪」などから上位下位関係を定義するシソーラス情報109を抽出される。データベース1902の各項目には重複する複数のデータ(たとえば「神奈川」が100件、「東京」が150件など)が登録されているが、これらの重複を排除してシソーラス情報109を抽出するものとする。
続けて、図21のステップS204からステップS206に進み、仮想頻度表の作成、および、頻度表の統合処理が行われる。さらにステップS207において統合された頻度表を関連性学習して概念辞書110を生成する。これらの処理については実施の形態1と同様なので説明を省略する。
以上説明したように、部品表や製品名データベースからシソーラスを生成するシソーラス抽出部を備えることにより、既存の知識を自動生成される類義語辞書への反映が容易となる。
実施の形態5.
図22に本発明の実施の形態5における構成図を示す。実施の形態1において説明した構成と同一の部分に関しては図1と共通の符号を付与して説明を省略する。2101は、大量のテキスト情報を含む汎用学習用文書2102をもとに生成した共起頻度表と、少量のテキスト情報からなるカスタマイズ用の学習文書2103をもとに生成した共起頻度表とを統合する共起頻度表統合部である。
本実施の形態では、シソーラス情報109の代わりにカスタマイズ用の学習文書2103を用いて共起頻度表を生成し、仮想頻度表401の代わりとする。
図22に本発明の実施の形態5における構成図を示す。実施の形態1において説明した構成と同一の部分に関しては図1と共通の符号を付与して説明を省略する。2101は、大量のテキスト情報を含む汎用学習用文書2102をもとに生成した共起頻度表と、少量のテキスト情報からなるカスタマイズ用の学習文書2103をもとに生成した共起頻度表とを統合する共起頻度表統合部である。
本実施の形態では、シソーラス情報109の代わりにカスタマイズ用の学習文書2103を用いて共起頻度表を生成し、仮想頻度表401の代わりとする。
図23は、実施の形態5における辞書生成処理の概要を示す処理フローである。実施の形態1の辞書生成処理と同一の処理に関しては図2と同一の符号を付与し、説明を省略する。実施の形態1と同様にして、ステップS201からステップS203までで汎用学習用文書2102に対する共起頻度表を生成する。また、ステップS2201からステップS2203までにおいて、それぞれステップS201からステップS203までと同様の処理により、カスタマイズ用文書に対する共起頻度表を生成する。
続けて、ステップS2204において共起頻度表統合処理を行なう。共起頻度表を統合する際には、各頻度表に対して重み付けをするための所定の定数αおよびβを、各表の要素となる頻度の値に乗じて新たな重み付け頻度表を得る。
さらに、ステップS207において関連性学習処理を行ない概念辞書110を生成する。
以上説明したように、別の文書集合から学習した統計情報をマージするための頻度表統合手段を備えることにより、学習用のデータが少ない場合にも概念辞書を生成することができる。
なお、上記実施の形態1〜5に記載の処理はプログラムによりコンピュータを動作させることによっても実施することが可能である。
本発明の辞書生成装置により生成された概念辞書を用いた文書検索装置は類義関係の取りこぼしや不要な類義関係を抽出するという問題を少なくすることができ、アンケート分析サービス事業への適用や文書知識サーバーへ適用され、精度の高い検索が可能となる。
101:文書入力部、102:単語分割部、103:共起頻度表生成部、104:シソーラス入力部、105:シソーラス頻度表変換部、106:頻度表統合部、107:関連性学習部、108:学習用の文書ファイル、109:シソーラス情報、110:概念辞書、1001:ベクトル補正部、1201:関連性編集部、1202:関連無ベクトル補正手段、1901:シソーラス抽出部、1902:既存知識、1903:項目間関係情報、2101:共起頻度表統合部、2102:汎用学習用文書、2103:カスタマイズ用の学習文書。
Claims (10)
- 学習用の文書を入力する入力手段と、入力した文書中のテキストを単語に分割する単語分割手段と、文書中の所定の範囲内に出現する単語の頻度統計を収集する共起頻度表生成手段と、共起頻度表をもとに単語間の関連性を学習し、共起頻度表を圧縮して概念辞書を作成する関連性学習手段とを備える辞書生成装置において、辞書の類義関連性をカスタマイズするためのシソーラス情報を仮想的な頻度表に変換するシソーラス頻度表変換手段と、上記共起頻度表と仮想頻度表を統合する頻度表統合手段とを備え、頻度表統合手段で統合された頻度表を圧縮して上記関連性学習手段が概念辞書を作成することを特徴とする辞書生成装置。
- 学習用の文書を入力する入力手段と、入力した文書中のテキストを単語に分割する単語分割手段と、文書中の所定の範囲内に出現する単語の頻度統計を収集する共起頻度表生成手段と、共起頻度表をもとに単語間の関連性を学習し、共起頻度表を圧縮して概念辞書を作成する関連性学習手段とを備える辞書生成装置において、上記関連性学習手段の学習結果として得られるベクトル情報を辞書の関連性をカスタマイズするためのシソーラス情報に従って補正し、概念辞書に登録するベクトル補正手段を備えることを特徴とする辞書生成装置。
- 上記関連性学習手段の学習結果であるベクトル情報から代表的な関連語を抽出してユーザに提示し、関連性の定義を編集する関連性編集手段と、上記関連性編集手段において関連なしと定義された単語のベクトル情報を補正し、概念辞書に登録する関連無ベクトル補正手段とを備え、上記関連性編集手段の編集結果を上記シソーラス情報とすることを特徴とする請求項1または請求項2記載の辞書生成装置。
- 項目間の関係を記述する項目間関係情報に従って既存のデータベース中に格納されている該当項目のデータから上記シソーラス情報を抽出するシソーラス抽出手段を備えることを特徴とする請求項1または請求項2記載の辞書生成装置。
- 上記共起頻度表は汎用学習用文書をもとに生成した共起頻度表であり、シソーラス情報からの仮想頻度表は少量のテキスト情報からなるカスタマイズ用の学習文書をもとに生成した共起頻度表であることを特徴とする請求項1記載の辞書生成装置。
- 上記頻度表統合手段が、定義されたシソーラス情報に従って新規単語の頻度を補完する頻度表補完手段を備えることを特徴とする請求項1記載の辞書生成装置。
- 上記頻度表統合手段が、カスタマイズの重みを変更する重み付け処理手段を備えることを特徴とする請求項1記載の辞書生成装置。
- 学習用の文書を入力する入力ステップと、入力した文書中のテキストを単語に分割する単語分割ステップと、文書中の所定の範囲内に出現する単語の頻度統計を収集する共起頻度表生成ステップと、共起頻度表をもとに単語間の関連性を学習し、共起頻度表を圧縮して概念辞書を作成する関連性学習ステップとを備える辞書生成方法において、辞書の類義関連性をカスタマイズするためのシソーラス情報を仮想的な頻度表に変換するシソーラス頻度表変換ステップと、上記共起頻度表と仮想頻度表を統合する頻度表統合ステップとを備え、頻度表統合ステップで統合された頻度表を圧縮して上記関連性学習ステップで概念辞書を作成することを特徴とする辞書生成方法。
- 学習用の文書を入力する入力ステップと、入力した文書中のテキストを単語に分割する単語分割ステップと、文書中の所定の範囲内に出現する単語の頻度統計を収集する共起頻度表生成ステップと、共起頻度表をもとに単語間の関連性を学習し、共起頻度表を圧縮して概念辞書を作成する関連性学習ステップとを備える辞書生成方法において、上記関連性学習ステップの学習結果として得られるベクトル情報を辞書の関連性をカスタマイズするためのシソーラス情報に従って補正し、概念辞書に登録するベクトル補正ステップを備えることを特徴とする辞書生成方法。
- 入力文書とは異なる表現で類似内容の文書が検索可能な検索装置に用いられる類義語辞書を生成するためにコンピュータを、学習用の文書を入力する入力手段と、入力した文書中のテキストを単語に分割する単語分割手段と、文書中の所定の範囲内に出現する単語の頻度統計を収集する共起頻度表生成手段と、辞書の類義関連性をカスタマイズするためのシソーラス情報を仮想的な頻度表に変換するシソーラス頻度表変換手段と、上記共起頻度表と仮想頻度表を統合する頻度表統合手段と、頻度表統合手段で統合された頻度表をもとに単語間の関連性を学習し、統合頻度表を圧縮して概念辞書を作成する関連性学習手段として機能させる辞書生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004059073A JP2005250762A (ja) | 2004-03-03 | 2004-03-03 | 辞書生成装置、辞書生成方法および辞書生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004059073A JP2005250762A (ja) | 2004-03-03 | 2004-03-03 | 辞書生成装置、辞書生成方法および辞書生成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005250762A true JP2005250762A (ja) | 2005-09-15 |
Family
ID=35031194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004059073A Pending JP2005250762A (ja) | 2004-03-03 | 2004-03-03 | 辞書生成装置、辞書生成方法および辞書生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005250762A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005309706A (ja) * | 2004-04-21 | 2005-11-04 | Fuji Xerox Co Ltd | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
WO2008023470A1 (fr) * | 2006-08-21 | 2008-02-28 | Kyoto University | Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document |
KR100837751B1 (ko) | 2006-12-12 | 2008-06-13 | 엔에이치엔(주) | 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템 |
WO2008084686A1 (ja) * | 2007-01-12 | 2008-07-17 | Nec Corporation | プロトコル翻訳システム、プロトコル翻訳方法およびプロトコル翻訳プログラム |
JP2011118526A (ja) * | 2009-12-01 | 2011-06-16 | Hitachi Ltd | 単語意味関係抽出装置 |
JP2011248484A (ja) * | 2010-05-24 | 2011-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 文字列ベクトル変換装置、文字列ベクトル変換方法、プログラム、及びプログラムを格納したコンピュータ読み取り可能な記録媒体 |
JP2012014365A (ja) * | 2010-06-30 | 2012-01-19 | Lafla Inc | データマップ作成装置、およびデータマップ作成プログラム |
JP2012043286A (ja) * | 2010-08-20 | 2012-03-01 | Kddi Corp | 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法 |
JP2012141756A (ja) * | 2010-12-28 | 2012-07-26 | Yahoo Japan Corp | 関連語グラフ作成装置、関連語グラフ作成方法、関連語提供装置、関連語提供方法及びプログラム |
WO2013077039A1 (ja) | 2011-11-24 | 2013-05-30 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体 |
WO2013150633A1 (ja) * | 2012-04-05 | 2013-10-10 | 株式会社日立製作所 | 文書処理システム、及び、文書処理方法 |
US9767186B2 (en) | 2013-06-11 | 2017-09-19 | International Business Machines Corporation | Retrieving a specific sentence from a document |
-
2004
- 2004-03-03 JP JP2004059073A patent/JP2005250762A/ja active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4525154B2 (ja) * | 2004-04-21 | 2010-08-18 | 富士ゼロックス株式会社 | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
JP2005309706A (ja) * | 2004-04-21 | 2005-11-04 | Fuji Xerox Co Ltd | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
WO2008023470A1 (fr) * | 2006-08-21 | 2008-02-28 | Kyoto University | Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document |
JP5167546B2 (ja) * | 2006-08-21 | 2013-03-21 | 国立大学法人京都大学 | 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置 |
JPWO2008023470A1 (ja) * | 2006-08-21 | 2010-01-07 | 国立大学法人京都大学 | 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置 |
US8407233B2 (en) | 2006-12-12 | 2013-03-26 | Nhn Business Platform Corporation | Method for calculating relevance between words based on document set and system for executing the method |
KR100837751B1 (ko) | 2006-12-12 | 2008-06-13 | 엔에이치엔(주) | 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템 |
WO2008084686A1 (ja) * | 2007-01-12 | 2008-07-17 | Nec Corporation | プロトコル翻訳システム、プロトコル翻訳方法およびプロトコル翻訳プログラム |
JP5246415B2 (ja) * | 2007-01-12 | 2013-07-24 | 日本電気株式会社 | プロトコル翻訳システム、プロトコル翻訳方法およびプロトコル翻訳プログラム |
JP2011118526A (ja) * | 2009-12-01 | 2011-06-16 | Hitachi Ltd | 単語意味関係抽出装置 |
JP2011248484A (ja) * | 2010-05-24 | 2011-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 文字列ベクトル変換装置、文字列ベクトル変換方法、プログラム、及びプログラムを格納したコンピュータ読み取り可能な記録媒体 |
JP2012014365A (ja) * | 2010-06-30 | 2012-01-19 | Lafla Inc | データマップ作成装置、およびデータマップ作成プログラム |
JP2012043286A (ja) * | 2010-08-20 | 2012-03-01 | Kddi Corp | 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法 |
JP2012141756A (ja) * | 2010-12-28 | 2012-07-26 | Yahoo Japan Corp | 関連語グラフ作成装置、関連語グラフ作成方法、関連語提供装置、関連語提供方法及びプログラム |
WO2013077039A1 (ja) | 2011-11-24 | 2013-05-30 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体 |
US9418102B2 (en) | 2011-11-24 | 2016-08-16 | Rakuten, Inc. | Information processing device, information processing method, information processing device program, and recording medium |
WO2013150633A1 (ja) * | 2012-04-05 | 2013-10-10 | 株式会社日立製作所 | 文書処理システム、及び、文書処理方法 |
US9767186B2 (en) | 2013-06-11 | 2017-09-19 | International Business Machines Corporation | Retrieving a specific sentence from a document |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100969447B1 (ko) | 자연 언어 커맨드에 따른 표 렌더링 | |
JP3266586B2 (ja) | データ分析システム | |
JP5754018B2 (ja) | 多義語抽出システム、多義語抽出方法、およびプログラム | |
GB2417103A (en) | Natural language translation system | |
JP2013020439A (ja) | 同義語抽出システム、方法およびプログラム | |
US20220245353A1 (en) | System and method for entity labeling in a natural language understanding (nlu) framework | |
JP2005250762A (ja) | 辞書生成装置、辞書生成方法および辞書生成プログラム | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
JP2015138351A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
JP6186198B2 (ja) | 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム | |
CN112925901A (zh) | 一种辅助在线问卷评估的评估资源推荐方法及其应用 | |
US20220284188A1 (en) | Machine based expansion of contractions in text in digital media | |
KR20040024619A (ko) | 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트생성 알고리즘, 장치 및 프로그램 | |
RU2546064C1 (ru) | Распределенная система и способ языкового перевода | |
JP2010521758A (ja) | 自動翻訳方法 | |
Revanth et al. | Nl2sql: Natural language to sql query translator | |
Agrawal et al. | Comparative analysis of NLP models for Google Meet Transcript summarization | |
US20220245352A1 (en) | Ensemble scoring system for a natural language understanding (nlu) framework | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
Mitrpanont et al. | TH_WSD: Thai word sense disambiguation using cross-language knowledge sources approach | |
JP2010282453A (ja) | 機械翻訳方法、及びシステム | |
Uddin et al. | Bangla to english text conversion using opennlp tools | |
JP4017407B2 (ja) | 知識獲得装置、そのための記録媒体およびプログラム | |
CN114925095A (zh) | 操作规范审核方法、装置、电子设备和存储介质 | |
Tsai | Using word support model to improve chinese input system |