JP2010277396A - 単語出現確率算出装置および方法、語義推定装置および方法、プログラム、並びに記録媒体 - Google Patents

単語出現確率算出装置および方法、語義推定装置および方法、プログラム、並びに記録媒体 Download PDF

Info

Publication number
JP2010277396A
JP2010277396A JP2009130434A JP2009130434A JP2010277396A JP 2010277396 A JP2010277396 A JP 2010277396A JP 2009130434 A JP2009130434 A JP 2009130434A JP 2009130434 A JP2009130434 A JP 2009130434A JP 2010277396 A JP2010277396 A JP 2010277396A
Authority
JP
Japan
Prior art keywords
word
meaning
appearance probability
headword
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009130434A
Other languages
English (en)
Inventor
Satoshi Suzuki
敏 鈴木
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009130434A priority Critical patent/JP2010277396A/ja
Publication of JP2010277396A publication Critical patent/JP2010277396A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】膨大な量の学習コーパスを必要とすることなく、精度の高い単語出現確率を算出する。
【解決手段】直接出現確率算出部15Bにより、語義別見出語と語義文の組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率14Cを算出し、間接共起確率算出部15Cにより、任意の語義別見出語が複数の語義文においてそれぞれ異なる語義別見出語と共起するという連接共起関係を経ることにより、任意の2つの語義別見出語が1つ以上の語義別見出語を介して間接的に共起する間接共起確率14Dを語義別見出語対ごとに算出し、単語出現確率算出部15Dにより、間接共起確率14Dから生成した間接共起確率行列Cと、直接出現確率14Cから生成した直接出現確率行列Aとの行列積CAを算出し、当該行列積CAの各行列要素を単語出現確率14Eとして出力する。
【選択図】 図1

Description

本発明は、自然言語解析技術に関し、特に入力文に含まれる単語の語義を推定する語義推定技術に関する。
自動翻訳や文章要約などの自然言語処理では、入力文に含まれている単語の語義の曖昧性を解消するため、複数の語義候補のうちから当該単語に最適な語義を推定する必要がある。
従来、このような語義推定技術として、対象語の前後に現れる単語の語義に基づいて対象語の語義候補の出現確率を得る確率モデルを用いて、対象語の語義を推定する技術が提案されている(例えば、非特許文献1など参照)。
菊田篤史,白井清昭、「未定語義義の判別を含む語義曖昧性解消」、第12回言語処理学会年次大会、pp.636-639
このような語義推定技術において、確率モデルを構成する単語の出現確率を高い精度で算出することは、語義曖昧性を解消して語義推定精度を高め、結果として適切な自動翻訳や文章要約を実現することができる。
しかしながら、従来技術によれば、作成した学習コーパスを構成する、任意の単語と任意の語義文との組み合わせごとに、当該語義文内に出現する単語の出現確率を用いて、確率モデルを作成しているため、精度の高い出現確率を求めるためには、膨大な量の学習コーパスが必要となるという問題点があった。
本発明はこのような課題を解決するためのものであり、膨大な量の学習コーパスを必要とすることなく、精度の高い単語出現確率を算出できる単語出現確率算出技術を提供することを目的としている。
このような目的を達成するために、本発明にかかる単語出現確率算出装置は、自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する単語出現確率算出装置であって、個々の見出語について、当該見出語の語義ごとに個別の語義文が登録されている辞書データベースと、各見出語について、当該見出語の語義ごとに当該見出語を互いに異なる語義別見出語として展開する見出語展開部と、各語義別見出語のうちから選択した1つの語義別見出語と各語義文から選択した1つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率を算出する直接出現確率算出部と、異なる2つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の2つの語義別見出語が1つ以上の語義別見出語を介して間接的に共起する間接共起確率を、各語義別見出語のうちから選択した2つの語義別見出語からなる語義別見出語対ごとに算出する間接共起確率算出部と、各語義別見出語対の間接共起確率と各語義別見出語の直接出現確率との積で得られる確率に基づき、単語出現確率を算出する単語出現確率算出部とを備えている。
この際、間接共起確率算出部で、直接出現確率行列Aの転置行列を行列ATとし、当該行列ATの列ベクトルを正規化するための正規化行列を行列Nとし、行列ATと行列Nの行列積ATNを行列Bとし、単位行列を行列Iとし、連接共起関係の展開数に応じて間接共起確率が減少する減少率をaとした場合、(I−a(AB)C)=(1−a)(AB)により間接共起確率行列Cを算出するようにしてもよい。
また、本発明にかかる単語出現確率算出方法は、自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する単語出現確率算出装置で用いられる単語出現確率算出方法であって、辞書データベースが、見出語の語義ごとに個別の語義文を登録する登録ステップと、見出語展開部が、各見出語について、当該見出語の語義ごとに当該見出語を互いに異なる語義別見出語として展開する見出語展開ステップと、直接出現確率算出部が、各語義別見出語のうちから選択した1つの語義別見出語と各語義文から選択した1つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率を算出する直接出現確率算出ステップと、間接共起確率算出部が、異なる2つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の2つの語義別見出語が1つ以上の語義別見出語を介して間接的に共起する間接共起確率を、各語義別見出語のうちから選択した2つの語義別見出語からなる語義別見出語対ごとに算出する間接共起確率算出ステップと、単語出現確率算出部が、各語義別見出語対の間接共起確率と各語義別見出語の直接出現確率との積で得られる確率に基づき、単語出現確率を算出する単語出現確率算出ステップとを備えている。
この際、間接共起確率算出ステップで、直接出現確率行列Aの転置行列を行列ATとし、当該行列ATの列ベクトルを正規化するための正規化行列を行列Nとし、行列ATと行列Nの行列積ATNを行列Bとし、単位行列を行列Iとし、連接共起関係の展開数に応じて間接共起確率が減少する減少率をaとした場合、(I−a(AB)C)=(1−a)(AB)により間接共起確率行列Cを算出するようにしてもよい。
また、本発明にかかる語義推定装置は、自然言語からなる入力文に含まれる単語のうち複数の語義を有する多義語について語義を推定する語義推定装置であって、前述の単語出現確率算出装置で算出された語義別見出語ごとの単語出現確率を記憶する記憶部と、各多義語について、当該多義語の語義ごとに単語出現確率を取得し、これら多義語の語義の組み合わせごとに、これら語義の組み合わせが入力文に出現する出現確率をそれぞれ算出し、最も出現確率の高い組み合わせを構成する語義を、それぞれの多義語の語義として選択する語義推定部とを備えている。
また、本発明にかかる語義推定方法は、自然言語からなる入力文に含まれる単語のうち複数の語義を有する多義語について語義を推定する語義推定装置で用いられる語義推定方法であって、 記憶部が、前述の単語出現確率算出装置で算出された語義別見出語ごとの単語出現確率を記憶する記憶ステップと、語義推定部が、各多義語について、当該多義語の語義ごとに単語出現確率を取得し、これら多義語の語義の組み合わせごとに、これら語義の組み合わせが入力文に出現する出現確率をそれぞれ算出し、最も出現確率の高い組み合わせを構成する語義を、それぞれの多義語の語義として選択する語義推定ステップとを備えている。
また、本発明にかかるプログラムは、自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する単語出現確率算出装置のコンピュータに、前述した単語出現確率算出方法の各ステップを実行させる。
また、本発明にかかる他のプログラムは、自然言語からなる入力文に含まれる単語のうち複数の語義を有する多義語について語義を推定する語義推定装置のコンピュータに、前述した語義推定方法の各ステップを実行させる。
また、本発明にかかる記録媒体は、前述したプログラムが記録された、コンピュータで読み取り可能な記録媒体である。
また、本発明にかかる記録媒体は、前述した他のプログラムが記録された、コンピュータで読み取り可能な記録媒体である。
本発明によれば、各語義別見出語のうちから選択した2つの語義別見出語の共起確率として、これら2つの語義別見出語が同一語義文に共起する直接共起確率だけでなく、これら2つの語義別見出語が任意の語義別見出語を介して間接的な共起関係となる間接共起確率を含む共起確率を算出することができる。
したがって、膨大な量の学習コーパスを必要とすることなく、精度の高い単語出現確率を算出できる。
第1の実施の形態にかかる単語出現確率算出装置の構成を示すブロック図である。 第1の実施の形態にかかる単語出現確率算出装置の動作を示すフロー図である。 第1の実施の形態にかかる単語出現確率算出処理を示すフローチャートである。 辞書DBの構成例である。 語義別見出語DBの構成例である。 直接出現確率の構成例である。 間接的共起関係を示す説明図である。 間接共起確率の構成例である。 単語出現確率の構成例である。 第2の実施の形態にかかる語義推定装置を示すブロック図である。 第2の実施の形態にかかる語義推定装置の語義推定処理を示すフローチャートである。 語義推定結果例である。 他の語義推定結果例である。
次に、本発明の実施の形態について図面を参照して説明する。
[第1の実施の形態]
まず、図1を参照して、本発明の第1の実施の形態にかかる単語出現確率算出装置について説明する。図1は、本発明の第1の実施の形態にかかる単語出現確率算出装置の構成を示すブロック図である。
この単語出現確率算出装置1は、サーバやパーソナルコンピュータなどの一般的な情報処理装置からなり、自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する機能を有している。
本実施の形態では、単語出現確率算出装置1において、辞書データベースに登録されている各見出語について、当該見出語の語義ごとに当該見出語を互いに異なる語義別見出語として展開した後、各語義別見出語のうちから選択した1つの語義別見出語と各語義文から選択した1つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率を算出するとともに、異なる2つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の2つの語義別見出語が1つ以上の語義別見出語を介して間接的に共起する間接共起確率を、各語義別見出語のうちから選択した2つの語義別見出語からなる語義別見出語対ごとに算出し、この後、各語義別見出語対の間接共起確率と各語義別見出語の直接出現確率との積で得られる確率に基づき、単語出現確率を算出する。
以下、図1を参照して、本発明の一実施の形態にかかる単語出現確率算出装置の構成について詳細に説明する。
単語出現確率算出装置1には、主な機能部として、一般的な情報処理装置と同様に、入出力インターフェース部(以下、入出力I/F部という)10、通信インターフェース部(以下、通信I/F部という)11、操作入力部12、画面表示部13、記憶部14、および演算処理部15が設けられている。
入出力I/F部10は、専用のデータ入出力回路からなり、CDやDVD、さらには不揮発性メモリカードなどの記録媒体Mとの間で、演算処理部15からの指示に応じて、辞書データベースなどの各種データやプログラムを入出力する機能を有している。
通信I/F部11は、専用のデータ通信回路からなり、LANなどの通信回線を介して接続されたサーバなどの外部装置との間で、演算処理部15からの指示に応じて、辞書データベースなどの各種データやプログラムを送受信する機能を有している。
操作入力部12は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部15へ出力する機能を有している。
画面表示部13は、LCDやPDPなどの画面表示装置からなり、演算処理部15からの指示に応じて辞書データベースや単語出現確率などの各種データや操作画面を画面表示する機能を有している。
記憶部14は、ハードディスクやメモリなどの記憶装置からなり、演算処理部15で実行するプログラム14Pや、単語出現確率の算出処理に用いる各種処理情報を記憶する機能を有している。プログラム14Pは、例えば入出力I/F部10を介して記録媒体Mから読み込まれ、あるいは通信I/F部11を介して外部装置(図示せず)から読み込まれ、記憶部14へ予め格納される。
記憶部14で記憶する主な処理情報としては、辞書データベース(以下、辞書DBという)14A、語義別見出語データベース(以下、語義別見出語DBという)14B、直接出現確率14C、間接共起確率14D、および単語出現確率14Eがある。
演算処理部15は、CPUなどのマイクロプロセッサとその周辺回路からなり、記憶部14に格納されているプログラム14Pを読み出して実行することにより、上記ハードウェアとプログラム14Pとを協働させて各種処理部を実現する。
演算処理部15で実現される主な処理部としては、見出語展開部15A、直接出現確率算出部15B、間接共起確率算出部15C、および単語出現確率算出部15Dがある。
見出語展開部15Aは、辞書DB14Aに登録されている各見出語を、当該見出語の語義ごとに語義別見出語として別々に展開する機能と、当該見出語と語義別見出語との対応関係を語義別見出語DB14Bへ登録する機能とを有している。
直接出現確率算出部15Bは、見出語展開部15Aで展開した語義別見出語DB14Bの各語義別見出語から選択した1つの語義別見出語と、辞書DB14Aの各語義文から選択した1つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率を算出する機能を有している。
間接共起確率算出部15Cは、異なる2つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の2つの語義別見出語が1つ以上の語義別見出語を介して間接的に共起する間接共起確率を、語義別見出語DB14Bの各語義別見出語のうちから選択した2つの語義別見出語からなる語義別見出語対ごとに算出する機能を有している。
単語出現確率算出部15Dは、間接共起確率算出部15Cで算出した各語義別見出語対の間接共起確率を行列要素とする間接共起確率行列Cと直接出現確率算出部15Bで算出した各語義別見出語の直接出現確率から生成した直接出現確率行列Aとの行列積CAを算出する機能と、この行列積CAを構成する各行列要素を単語出現確率として算出する機能とを有している。
[第1の実施の形態の動作]
次に、図2および図3を参照して、本発明の第1の実施の形態にかかる単語出現確率算出装置の動作について説明する。図2は、本発明の第1の実施の形態にかかる単語出現確率算出装置の動作を示すフロー図である。図3は、本発明の第1の実施の形態にかかる単語出現確率算出処理を示すフローチャートである。
単語出現確率算出装置1の演算処理部15は、操作入力部12で検出されたオペレータ操作に応じて、図2および図3の単語出現確率算出処理を実行する。
まず、演算処理部15は、見出語展開部15Aにより、辞書DB14Aに登録されている各見出語を読み出して、当該見出語の語義ごとに語義別見出語として別々に展開し(ステップ100)、当該見出語と語義別見出語との対応関係を、記憶部14の語義別見出語DB14Bへ登録する(ステップ101)。
図4は、辞書DBの構成例である。ここでは、学習コーパスとして、個々の見出語に対応して1つ以上の語義ごとに個別の語義文が予め登録されている。この例では、「ドライバー」と「車」という見出語について、それぞれ3つの語義が存在しており、これら語義ごとに異なる語義文が登録されている。辞書DB14Aとしては、公知の文献(例えば、笠原要,佐藤浩史,田中貴秋,藤田早苗,金杉友子,天野成昭.「基本語意味データベース:Lexeed」の構築(辞書,コーパス).情報処理学会研究報告.自然言語処理研究会報告,2004(1):75-82, January 2004.)で述べられているものを利用してもよい。
本発明では、辞書DBの各見出語について、語義ごとに異なるIDを与え、異なる見出語、すなわち語義別見出語として扱う。見出語展開部15Aは、例えば図4の「ドライバー」という見出語について、その3つの語義ごとに、それぞれ「ドライバー1」,「ドライバー2」,「ドライバー3」という語義別見出語へ展開し、それぞれ個別のIDを付与する。また「車」という見出語については、その3つの語義ごとに、それぞれ「車1」,「車2」,「車3」という語義別見出語へ展開し、それぞれ個別のIDを付与する。
図5は、語義別見出語DBの構成例である。ここでは、個々の見出語の語義ごとに、語義別見出語とそれぞれ固有のIDとが登録されている。
なお、これら見出語および語義別見出語は、図3の単語出現確率算出処理において、すべてIDで処理される。
次に、演算処理部15は、直接出現確率算出部15Bにより、語義別見出語DB14Bに登録されている各語義別見出語のうちから選択した1つの語義別見出語と、語義別見出語DB14Bに登録されている各語義別見出語の語義文のうちから選択した1つの語義文とからなる組み合わせごとに、直接出現確率14Cを算出する(ステップ102)。本発明でいう直接出現確率とは、任意の語義文に語義別見出語が直接出現する確率のことである。この際、各語義文には、当該語義文の語義別見出語が含まれているものとする。
単語wi(iは1以上の整数)の語義文siに含まれる単語wj(jは1以上の整数)の数をQi(wj(0))とした場合、単語wiの語義文si内に単語wjが出現する直接出現確率P(wj(0)|si)は、次の式(1)で算出される。なお、wj(0)の上付変数(0)は、後述する共起の展開次数を示している。
Figure 2010277396
図6は、直接出現確率の構成例である。ここでは、語義別見出語ごとに、直接出現確率が登録されている。
したがって、語義別見出語DB14Bに登録されている語義別見出語と語義文の数をm(mは2以上の整数)とした場合、個々の語義別見出語wjが、それぞれの語義別見出語wiの語義文si内に直接的に出現する直接出現確率は、これらを行列要素とする直接出現確率行列Aとして、次の式(2)のように表現される。
Figure 2010277396
次に、演算処理部15は、間接共起確率算出部15Cにより、語義別見出語DB14Bに登録されている各語義別見出語のうちから選択した2つの語義別見出語からなる語義別見出語対ごとに、間接共起確率14Dを算出する。本発明でいう間接共起確率とは、任意の語義別見出語が複数の語義文においてそれぞれ異なる語義別見出語と共起するという連接共起関係を経ることにより、任意の2つの語義別見出語が1つ以上の語義別見出語を介して間接的に共起する確率のことである。
語義文s内に出現する語義別見出語wiの出現確率をP(wi|s)とし、語義別見出語wjが与えられたときに語義文sが選択される確率をP(s|wj)とし、すべての語義別見出語のうち語義別見出語wjが選択される確率をP(wj)とした場合、任意の義語文s内に、2つの語義別見出語wi,wjが同時に含まれる確率、すなわち直接共起確率P(wi,wj)は、次の式(3)で算出される。
Figure 2010277396
ここで、直接出現確率行列Aの転置行列をATとし、この転置行列ATの列ベクトルを正規化するための正規化行列をNとした場合、式(3)におけるP(wi|s)P(s|wj)の項は、次の式(4)で表される行列Cの行列要素となる。
Figure 2010277396
従来技術では、任意の2つの語義別見出語が共起する共起確率として、このような同一義語文に2つの語義別見出語が直接含まれる直接共起確率に基づき、語義別見出語からなる単語ごとに単語出現確率を算出していたことになる。
本発明では、このような同一義語文に2つの語義別見出語が含まれる直接共起確率だけではなく、任意の単語を介して2つの語義別見出語が間接的に共起関係となる間接共起確率についても算出し、この間接共起確率を、任意の2つの語義別見出語が共起する共起確率の一部として含めている。
図7は、連接共起関係を示す説明図である。ここでは、語義文s内に2つの語義別見出語wi,wが含まれており、語義文s'内に2つの語義別見出語wj,wが含まれている。したがって、語義別見出語wは、語義文s,s'の両方に出現しており、それぞれ語義別見出語wi,wjと直接共起関係にある。
この場合、語義別見出語wiを含む語義文sには、語義別見出語wjが出現しないものの、語義別見出語wを介して、語義別見出語wiと語義別見出語wjとの間に間接的な共起関係が存在していることがわかる。
本発明では、このような語義別見出語wを介した2つの直接共起関係を連接共起関係という。また、1つの語義別見出語wを介した2つの語義別見出語の間接共起を1次展開した共起といい、n個(nは1以上の整数)の語義別見出語wを介した2つの語義別見出語の間接共起をn+1次展開した共起という。なお、前述した式(3)の直接共起確率は0次展開した共起と云える。
任意の2つの語義文をs,s'とし、語義文s内に出現する語義別見出語wiの出現確率をP(wi|s)とし、語義別見出語wが与えられたときに語義文sが出現する確率をP(s|w)とし、語義文s'内に出現する語義別見出語wの出現確率をP(w|s')とし、語義別見出語wjが与えられたときに語義文s'が出現する確率をP(s'|wj)とし、すべての語義別見出語のうち語義別見出語wjが与えられる確率をP(wj)とした場合、ある語義別見出語wを介して結び付けられた2つの語義別見出語wi,wjが間接的に共起関係、すなわち1次展開した共起関係に関する間接共起確率P(wi,wj)は、次の式(5)で求められる。
Figure 2010277396
この式(5)において、P(wi|s)P(s|w)P(w|s')P(s'|wj)の項は、直接出現確率行列A、転置行列AT、および正規化行列Nを用いれば、D=AATNAATNで表される。ここで、B=ATNとした場合、D=ABAB=(AB)2となることから、一般に語義文をn次展開した共起については、D=(BA)n+1で表現できることがわかる。
したがって、通常、共起関係を展開するごとに間接共起確率は減少することから、n次展開時における定数をPnとした場合、0次からn次まで展開した場合の間接共起確率の集合は、次の式(6)の間接共起確率行列Cで表される。
Figure 2010277396
また、連接共起関係を展開するごとに定数Pnが一定の減少率a(0<a<1の実数)で減少すると仮定し、Rを正規化のための定数とした場合、式(6)の間接共起確率行列Cは、次の式(7)で表される。
Figure 2010277396
ここで、定数Rと減少率aとの関係から、次の式(8)のように、定数Rを減少率aで表すことができる。
Figure 2010277396
このため、式(7)は、式(8)に基づいて変形され、結果として次の式(9)に示す関係が得られる。
Figure 2010277396
間接共起確率算出部15Cは、式(9)に基づいて、間接共起確率行列Cを求めることにより、語義別見出語DB14Bの各語義別見出語のうちから選択した2つの語義別見出語からなる語義別見出語対ごとに、任意の2つの語義別見出語が1つ以上の語義別見出語を介して間接的に共起する間接共起確率を算出する(ステップ103)。図8は、間接共起確率の構成例である。ここでは、2つの語義別見出語からなる語義別見出語対ごとに、間接共起確率が登録されている。
このようにして算出した間接共起確率行列Cは、単語wjが存在する文中に、単語wiが存在する確率、すなわち間接共起確率P(wi|wj)を行列要素として持つ行列であると云える。
したがって、間接共起確率行列Cと直接出現確率行列Aの行列積CAは、文sj中に単語wiが現れる確率P(wi|sj)を行列要素として持つ行列となる。
次に、演算処理部15は、単語出現確率算出部15Dは、間接共起確率算出部15Cで算出した各語義別見出語対の間接共起確率14Dを行列要素とする間接共起確率行列Cと、直接出現確率算出部15Bで算出した各語義別見出語の直接出現確率14Cを行列要素とする直接出現確率行列Aとの行列積CAを算出し、この行列積CAを構成する各行列要素を単語出現確率として算出して、記憶部14へ保存し(ステップ104)、一連の単語出現確率算出処理を終了する。式(10)に行列積CAを示す。
Figure 2010277396
図9は、単語出現確率の構成例である。ここでは、語義別見出語ごとに、単語出現確率が登録されている。
[第1の実施の形態の効果]
このように、本実施の形態では、見出語展開部15Aにより、辞書DB14Aに登録されている各見出語について、当該見出語の語義ごとに当該見出語を互いに異なる語義別見出語として展開し、直接出現確率算出部15Bにより、各語義別見出語のうちから選択した1つの語義別見出語と各語義文から選択した1つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率14Cを算出するとともに、間接共起確率算出部15Cにより、異なる2つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の2つの語義別見出語が1つ以上の語義別見出語を介して間接的に共起する間接共起確率14Dを、各語義別見出語のうちから選択した2つの語義別見出語からなる語義別見出語対ごとに算出し、単語出現確率算出部15Dにより、各語義別見出語対の間接共起確率14Dと各語義別見出語の直接出現確率14Cとの積で得られる確率に基づき、単語出現確率14Eを算出する。
これにより、各語義別見出語のうちから選択した2つの語義別見出語の共起確率として、これら2つの語義別見出語が同一語義文に共起する直接共起確率だけでなく、これら2つの語義別見出語が任意の語義別見出語を介して間接的な共起関係となる間接共起確率を含む共起確率を算出することができる。
したがって、膨大な量の学習コーパスを必要とすることなく、精度の高い単語出現確率を算出できる。
また、本実施の形態では、間接共起確率算出部15Cにより、直接出現確率行列Aの転置行列を行列ATとし、当該行列ATの列ベクトルを正規化するための正規化行列を行列Nとし、行列ATと行列Nの行列積ATNを行列Bとし、単位行列を行列Iとし、連接共起関係の展開数に応じて間接共起確率が減少する減少率をaとした場合、(I−a(AB)C)=(1−a)(AB)により間接共起確率行列Cを算出するようにしたので、簡素な計算式で間接共起確率を算出することができる。
[第2の実施の形態]
次に、図10を参照して、本発明の第2の実施の形態にかかる語義推定装置について説明する。図10は、本発明の第2の実施の形態にかかる語義推定装置を示すブロック図であり、図1と同じまたは同等部分には同一符号を付してある。
この語義推定装置2は、サーバやパーソナルコンピュータなどの一般的な情報処理装置からなり、自然言語からなる任意の文内に出現する各単語の語義を推定する機能を有している。
本実施の形態にかかる語義推定装置2には、第1の実施の形態にかかる単語出現確率算出装置1の構成に加え、演算処理部15に語義推定部15Eが設けられている。
語義推定部15Eは、見出語展開部15A、直接出現確率算出部15B、間接共起確率算出部15C、および単語出現確率算出部15Dにより、辞書DB14Aに登録されている各語義別見出語に関する単語出現確率14Eに基づいて、入力文s*に含まれる単語の語義を推定する機能を有している。
[第2の実施の形態の動作]
次に、図11を参照して、本発明の第2の実施の形態にかかる語義推定装置の動作について説明する。図11は、本発明の第2の実施の形態にかかる語義推定装置の語義推定処理を示すフローチャートである。
語義推定装置2の演算処理部15は、操作入力部12で検出されたオペレータ操作に応じて、図11の語義推定処理を実行する。ここでは、第1の実施の形態で説明した単語出現確率算出処理により、辞書DB14Aに登録されている各語義別見出語に関する単語出現確率14Eが予め算出されて、記憶部14に保存されているものとする。
まず、演算処理部15は、入出力I/F部10により、自然言語からなる入力文s*を取得し(ステップ111)、語義推定部15Eにより、入力文s*から抽出した各単語に対応する語義別見出語を語義別見出語DB14Bからそれぞれ取得し、これら語義別見出語の単語出現確率を記憶部14の単語出現確率14Eから取得する(ステップ112)。
次に、語義推定部15Eは、単語出現確率14Eに基づいて、これら語義別見出語の組み合わせごとに、これら組み合わせが入力文s*に出現する出現確率を算出する(ステップ113)。
入力文s*に含まれる語義別見出語をwi,wj,…,wkとし、入力文s*に出現する語義別見出語wの出現確率をP(w|s*)とし、入力文s*の事前生起確率をP(s*)とした場合、これら組み合わせが入力文s*に出現する出現確率P(wi,wj,…,wk)は、次の式(11)で算出される。
Figure 2010277396
したがって、出現確率P(wi,wj,…,wk)が最も大きい値をとる語義別見出語をwi,wj,…,wkの組み合わせが、入力文s*に対する尤もらしい語義の推定結果となる。なお、事前生起確率P(s*)は、語義別見出語をwi,wj,…,wkによらず一定と見なすことができる。
語義推定部15Eは、このようにして語義推定部15Eの各単語の語義を推定して(ステップ114)、その語義推定結果Yを入出力I/F部10から出力し、あるいは画面表示部13で画面表示し、一連の語義推定処理を終了する。
図12は、「ドライバーで車を修理する」という入力文に対する語義推定結果である。この場合、入力文には「ドライバ」、「車」、および「修理」という3つの単語が含まれている。このうち語義を複数持つ単語、すなわち多義語は「ドライバ」と「車」であり、これらは図4で示したように、それぞれ3つの語義が辞書DB14Aに登録されている。したがって、これら多義語に関する語義別見出語の組み合わせは、3×3の9通りとなり、語義推定部15Eでは、これら9通りの組み合わせごとに、出現確率Pを算出する。
図12には、各単語の語義ごとに、当該語義別見出語を用いた組み合わせのうち最も大きい出現確率Pをスコアとして記載されている。ここでは、単語「ドライバ」のうち語義別見出語「ドライバ1」のスコアが最も大きく、単語「車」のうち語義別見出語「車3」のスコアが最も大きい。このことから、入力文s*は「ドライバ1」と「車3」の組み合わせが尤もらしいと推定される。したがって、入力文s*の語義は、「ドライバー(ねじまわし)で車(自動車…)を修理する」と推定される。
図13は、「ドライバーが車を運転する」という入力文に対する推定結果である。この場合、入力文には「ドライバ」、「車」、および「運転」という3つの単語が含まれている。このうち語義を複数持つ単語、すなわち多義語は「ドライバ」と「車」であり、これらは図4で示したように、それぞれ3つの語義が辞書DB14Aに登録されている。したがって、これら多義語に関する語義別見出語の組み合わせは、3×3の9通りとなり、語義推定部15Eでは、これら9通りの組み合わせごとに、出現確率Pを算出する。
図13には、各単語の語義ごとに、当該語義別見出語を用いた組み合わせのうち最も大きい出現確率Pをスコアとして記載されている。ここでは、単語「ドライバ」のうち語義別見出語「ドライバ2」のスコアが最も大きく、単語「車」のうち語義別見出語「車3」のスコアが最も大きい。このことから、入力文s*は「ドライバ1」と「車3」の組み合わせが尤もらしいと推定される。したがって、入力文s*の語義は、「ドライバー(自動車を運転する人)が車(自動車…)を運転する」と推定される。
[第2の実施の形態の効果]
このように、本実施の形態によれば、膨大な量の学習コーパスを必要とすることなく、精度の高い単語出現確率を算出でき、高い精度で入力文に含まれる単語の語義を推定することが可能となる。
また、本実施の形態では、入力文に含まれる複数の単語の組み合わせに関する出現確率を用いてこれら語義を推定するようにしたので、複数の単語の語義を一括して推定することができ、効率よく語義を推定することが可能となる。
なお、入力文に含まれるすべての単語の組み合わせを用いてもよいが、これら単語の一部からなる組み合わせを複数生成し、これら組み合わせごとに語義を推定してもよい。この際、入力文がn個の単語から構成されている場合、これら単語からm個の単語を選択する選択枠を、先頭から順に1個ずつずらして設定し、この選択枠で選択したm個の単語の組み合わせごとに、当該m個の先頭に位置する単語の語義を推定するようにしてもよい。
[実施の形態の拡張]
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
また、第2の実施の形態では、語義推定装置2内に、単語出現確率算出装置1と同様の構成を含む場合を例として説明したが、これに限定されるものではなく、語義推定装置2の外部に、単語出現確率算出装置1を接続した語義推定システムを構成し、この単語出現確率算出装置1から取得した単語出現確率14Eに基づき、語義推定装置2で入力文の語義を推定してもよい。これにより、語義推定装置2の構成として、単語出現確率算出処理のみに要する構成を省くことができる。
1…単語出現確率算出装置、2…語義推定装置、10…入出力I/F部、11…通信I/F部、12…操作入力部、13…画面表示部、14…記憶部、14A…辞書DB、14B…語義別見出語DB、14C…直接出現確率、14D…間接共起確率、14E…単語出現確率、14P…プログラム、15…演算処理部、15A…見出語展開部、15B…直接出現確率算出部、15C…間接共起確率算出部、15D…単語出現確率算出部、15E…語義推定部、s*…入力文、Y…語義推定結果、M…記録媒体。

Claims (10)

  1. 自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する単語出現確率算出装置であって、
    個々の見出語について、当該見出語の語義ごとに個別の語義文が登録されている辞書データベースと、
    前記各見出語について、当該見出語の語義ごとに当該見出語を互いに異なる語義別見出語として展開する見出語展開部と、
    前記各語義別見出語のうちから選択した1つの語義別見出語と前記各語義文から選択した1つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率を算出する直接出現確率算出部と、
    異なる2つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の2つの語義別見出語が1つ以上の語義別見出語を介して間接的に共起する間接共起確率を、前記各語義別見出語のうちから選択した2つの語義別見出語からなる語義別見出語対ごとに算出する間接共起確率算出部と、
    前記各語義別見出語対の間接共起確率と前記各語義別見出語の直接出現確率との積で得られる確率に基づき、前記単語出現確率を算出する単語出現確率算出部と
    を備えることを特徴とする単語出現確率算出装置。
  2. 請求項1に記載の単語出現確率算出装置において、
    前記間接共起確率算出部は、前記直接出現確率行列Aの転置行列を行列ATとし、当該行列ATの列ベクトルを正規化するための正規化行列を行列Nとし、行列ATと行列Nの行列積ATNを行列Bとし、単位行列を行列Iとし、前記連接共起関係の展開数に応じて前記間接共起確率が減少する減少率をaとした場合、(I−a(AB)C)=(1−a)(AB)により前記間接共起確率行列Cを算出する
    ことを特徴とする単語出現確率算出装置。
  3. 自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する単語出現確率算出装置で用いられる単語出現確率算出方法であって、
    辞書データベースが、見出語の語義ごとに個別の語義文を登録する登録ステップと、
    見出語展開部が、前記各見出語について、当該見出語の語義ごとに当該見出語を互いに異なる語義別見出語として展開する見出語展開ステップと、
    直接出現確率算出部が、前記各語義別見出語のうちから選択した1つの語義別見出語と前記各語義文から選択した1つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率を算出する直接出現確率算出ステップと、
    間接共起確率算出部が、異なる2つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の2つの語義別見出語が1つ以上の語義別見出語を介して間接的に共起する間接共起確率を、前記各語義別見出語のうちから選択した2つの語義別見出語からなる語義別見出語対ごとに算出する間接共起確率算出ステップと、
    単語出現確率算出部が、前記各語義別見出語対の間接共起確率と前記各語義別見出語の直接出現確率との積で得られる確率に基づき、前記単語出現確率を算出する単語出現確率算出ステップと
    を備えることを特徴とする単語出現確率算出方法。
  4. 請求項3に記載の単語出現確率算出方法において、
    前記間接共起確率算出ステップは、前記直接出現確率行列Aの転置行列を行列ATとし、当該行列ATの列ベクトルを正規化するための正規化行列を行列Nとし、行列ATと行列Nの行列積ATNを行列Bとし、単位行列を行列Iとし、前記連接共起関係の展開数に応じて前記間接共起確率が減少する減少率をaとした場合、(I−a(AB)C)=(1−a)(AB)により前記間接共起確率行列Cを算出するステップを含むことを特徴とする単語出現確率算出方法。
  5. 自然言語からなる入力文に含まれる単語のうち複数の語義を有する多義語について語義を推定する語義推定装置であって、
    請求項1に記載の単語出現確率算出装置で算出された語義別見出語ごとの単語出現確率を記憶する記憶部と、
    前記各多義語について、当該多義語の語義ごとに単語出現確率を取得し、これら多義語の語義の組み合わせごとに、これら語義の組み合わせが前記入力文に出現する出現確率をそれぞれ算出し、最も出現確率の高い組み合わせを構成する語義を、それぞれの多義語の語義として選択する語義推定部と
    を備えることを特徴とする語義推定装置。
  6. 自然言語からなる入力文に含まれる単語のうち複数の語義を有する多義語について語義を推定する語義推定装置で用いられる語義推定方法であって、
    記憶部が、請求項1に記載の単語出現確率算出装置で算出された語義別見出語ごとの単語出現確率を記憶する記憶ステップと、
    語義推定部が、前記各多義語について、当該多義語の語義ごとに単語出現確率を取得し、これら多義語の語義の組み合わせごとに、これら語義の組み合わせが前記入力文に出現する出現確率をそれぞれ算出し、最も出現確率の高い組み合わせを構成する語義を、それぞれの多義語の語義として選択する語義推定ステップと
    を備えることを特徴とする語義推定方法。
  7. 自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する単語出現確率算出装置のコンピュータに、請求項3または請求項4に記載の各ステップを実行させるプログラム。
  8. 自然言語からなる入力文に含まれる単語のうち複数の語義を有する多義語について語義を推定する語義推定装置のコンピュータに、請求項6に記載の各ステップを実行させるプログラム。
  9. 請求項7に記載のプログラムが記録された、コンピュータで読み取り可能な記録媒体。
  10. 請求項8に記載のプログラムが記録された、コンピュータで読み取り可能な記録媒体。
JP2009130434A 2009-05-29 2009-05-29 単語出現確率算出装置および方法、語義推定装置および方法、プログラム、並びに記録媒体 Pending JP2010277396A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009130434A JP2010277396A (ja) 2009-05-29 2009-05-29 単語出現確率算出装置および方法、語義推定装置および方法、プログラム、並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009130434A JP2010277396A (ja) 2009-05-29 2009-05-29 単語出現確率算出装置および方法、語義推定装置および方法、プログラム、並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2010277396A true JP2010277396A (ja) 2010-12-09

Family

ID=43424288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009130434A Pending JP2010277396A (ja) 2009-05-29 2009-05-29 単語出現確率算出装置および方法、語義推定装置および方法、プログラム、並びに記録媒体

Country Status (1)

Country Link
JP (1) JP2010277396A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013105210A (ja) * 2011-11-10 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 単語属性推定装置及び方法及びプログラム
US9455940B2 (en) 2012-11-29 2016-09-27 Fujitsu Limited Information processing apparatus and information processing method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013105210A (ja) * 2011-11-10 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 単語属性推定装置及び方法及びプログラム
US9455940B2 (en) 2012-11-29 2016-09-27 Fujitsu Limited Information processing apparatus and information processing method

Similar Documents

Publication Publication Date Title
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP4652737B2 (ja) 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
Agić et al. If all you have is a bit of the Bible: Learning POS taggers for truly low-resource languages
US20100076746A1 (en) Computerized statistical machine translation with phrasal decoder
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
WO2014087703A1 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
JP2008083952A (ja) 辞書作成支援システム、方法及びプログラム
Yuan et al. Candidate re-ranking for SMT-based grammatical error correction
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
Sakaizawa et al. Construction of a Japanese word similarity dataset
Berry et al. M-SpeechCLIP: Leveraging large-scale, pre-trained models for multilingual speech to image retrieval
JP2010277396A (ja) 単語出現確率算出装置および方法、語義推定装置および方法、プログラム、並びに記録媒体
JP2009128968A (ja) 表記ゆれ解析装置
Wagacha et al. A grapheme-based approach for accent restoration in Gıkuyu
JP6545633B2 (ja) 単語スコア計算装置、単語スコア計算方法及びプログラム
Vadlapudi et al. Quantitative evaluation of grammaticality of summaries
JP4972271B2 (ja) 検索結果提示装置
Sunarto A translation Shift Analysis of Noun Phrase in Subtitling of Ice Age 4 Movie By Sagaz Net
Park et al. Constructing a paraphrase database for agglutinative languages
JP3558854B2 (ja) データ検索装置及びコンピュータ読み取り可能な記録媒体
JP3961858B2 (ja) 翻字装置及びそのプログラム
WO2023228351A1 (ja) 学習装置、管理シート作成支援装置、プログラム、学習方法及び管理シート作成支援方法
JP5500624B2 (ja) 字訳装置、コンピュータプログラム及び記録媒体
JP4721344B2 (ja) 単語検索装置、単語検索方法及びプログラム