JP2010277396A

JP2010277396A - 単語出現確率算出装置および方法、語義推定装置および方法、プログラム、並びに記録媒体

Info

Publication number: JP2010277396A
Application number: JP2009130434A
Authority: JP
Inventors: Satoshi Suzuki; 敏鈴木; Masaaki Nagata; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-05-29
Filing date: 2009-05-29
Publication date: 2010-12-09

Abstract

【課題】膨大な量の学習コーパスを必要とすることなく、精度の高い単語出現確率を算出する。
【解決手段】直接出現確率算出部１５Ｂにより、語義別見出語と語義文の組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率１４Ｃを算出し、間接共起確率算出部１５Ｃにより、任意の語義別見出語が複数の語義文においてそれぞれ異なる語義別見出語と共起するという連接共起関係を経ることにより、任意の２つの語義別見出語が１つ以上の語義別見出語を介して間接的に共起する間接共起確率１４Ｄを語義別見出語対ごとに算出し、単語出現確率算出部１５Ｄにより、間接共起確率１４Ｄから生成した間接共起確率行列Ｃと、直接出現確率１４Ｃから生成した直接出現確率行列Ａとの行列積ＣＡを算出し、当該行列積ＣＡの各行列要素を単語出現確率１４Ｅとして出力する。
【選択図】図１

Description

本発明は、自然言語解析技術に関し、特に入力文に含まれる単語の語義を推定する語義推定技術に関する。

自動翻訳や文章要約などの自然言語処理では、入力文に含まれている単語の語義の曖昧性を解消するため、複数の語義候補のうちから当該単語に最適な語義を推定する必要がある。
従来、このような語義推定技術として、対象語の前後に現れる単語の語義に基づいて対象語の語義候補の出現確率を得る確率モデルを用いて、対象語の語義を推定する技術が提案されている（例えば、非特許文献１など参照）。

菊田篤史,白井清昭、「未定語義義の判別を含む語義曖昧性解消」、第12回言語処理学会年次大会、pp.636-639

このような語義推定技術において、確率モデルを構成する単語の出現確率を高い精度で算出することは、語義曖昧性を解消して語義推定精度を高め、結果として適切な自動翻訳や文章要約を実現することができる。
しかしながら、従来技術によれば、作成した学習コーパスを構成する、任意の単語と任意の語義文との組み合わせごとに、当該語義文内に出現する単語の出現確率を用いて、確率モデルを作成しているため、精度の高い出現確率を求めるためには、膨大な量の学習コーパスが必要となるという問題点があった。

本発明はこのような課題を解決するためのものであり、膨大な量の学習コーパスを必要とすることなく、精度の高い単語出現確率を算出できる単語出現確率算出技術を提供することを目的としている。

このような目的を達成するために、本発明にかかる単語出現確率算出装置は、自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する単語出現確率算出装置であって、個々の見出語について、当該見出語の語義ごとに個別の語義文が登録されている辞書データベースと、各見出語について、当該見出語の語義ごとに当該見出語を互いに異なる語義別見出語として展開する見出語展開部と、各語義別見出語のうちから選択した１つの語義別見出語と各語義文から選択した１つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率を算出する直接出現確率算出部と、異なる２つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の２つの語義別見出語が１つ以上の語義別見出語を介して間接的に共起する間接共起確率を、各語義別見出語のうちから選択した２つの語義別見出語からなる語義別見出語対ごとに算出する間接共起確率算出部と、各語義別見出語対の間接共起確率と各語義別見出語の直接出現確率との積で得られる確率に基づき、単語出現確率を算出する単語出現確率算出部とを備えている。

この際、間接共起確率算出部で、直接出現確率行列Ａの転置行列を行列Ａ^Tとし、当該行列Ａ^Tの列ベクトルを正規化するための正規化行列を行列Ｎとし、行列Ａ^Tと行列Ｎの行列積Ａ^TＮを行列Ｂとし、単位行列を行列Ｉとし、連接共起関係の展開数に応じて間接共起確率が減少する減少率をａとした場合、（Ｉ−ａ（ＡＢ）Ｃ）＝（１−ａ）（ＡＢ）により間接共起確率行列Ｃを算出するようにしてもよい。

また、本発明にかかる単語出現確率算出方法は、自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する単語出現確率算出装置で用いられる単語出現確率算出方法であって、辞書データベースが、見出語の語義ごとに個別の語義文を登録する登録ステップと、見出語展開部が、各見出語について、当該見出語の語義ごとに当該見出語を互いに異なる語義別見出語として展開する見出語展開ステップと、直接出現確率算出部が、各語義別見出語のうちから選択した１つの語義別見出語と各語義文から選択した１つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率を算出する直接出現確率算出ステップと、間接共起確率算出部が、異なる２つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の２つの語義別見出語が１つ以上の語義別見出語を介して間接的に共起する間接共起確率を、各語義別見出語のうちから選択した２つの語義別見出語からなる語義別見出語対ごとに算出する間接共起確率算出ステップと、単語出現確率算出部が、各語義別見出語対の間接共起確率と各語義別見出語の直接出現確率との積で得られる確率に基づき、単語出現確率を算出する単語出現確率算出ステップとを備えている。

この際、間接共起確率算出ステップで、直接出現確率行列Ａの転置行列を行列Ａ^Tとし、当該行列Ａ^Tの列ベクトルを正規化するための正規化行列を行列Ｎとし、行列Ａ^Tと行列Ｎの行列積Ａ^TＮを行列Ｂとし、単位行列を行列Ｉとし、連接共起関係の展開数に応じて間接共起確率が減少する減少率をａとした場合、（Ｉ−ａ（ＡＢ）Ｃ）＝（１−ａ）（ＡＢ）により間接共起確率行列Ｃを算出するようにしてもよい。

また、本発明にかかる語義推定装置は、自然言語からなる入力文に含まれる単語のうち複数の語義を有する多義語について語義を推定する語義推定装置であって、前述の単語出現確率算出装置で算出された語義別見出語ごとの単語出現確率を記憶する記憶部と、各多義語について、当該多義語の語義ごとに単語出現確率を取得し、これら多義語の語義の組み合わせごとに、これら語義の組み合わせが入力文に出現する出現確率をそれぞれ算出し、最も出現確率の高い組み合わせを構成する語義を、それぞれの多義語の語義として選択する語義推定部とを備えている。

また、本発明にかかる語義推定方法は、自然言語からなる入力文に含まれる単語のうち複数の語義を有する多義語について語義を推定する語義推定装置で用いられる語義推定方法であって、記憶部が、前述の単語出現確率算出装置で算出された語義別見出語ごとの単語出現確率を記憶する記憶ステップと、語義推定部が、各多義語について、当該多義語の語義ごとに単語出現確率を取得し、これら多義語の語義の組み合わせごとに、これら語義の組み合わせが入力文に出現する出現確率をそれぞれ算出し、最も出現確率の高い組み合わせを構成する語義を、それぞれの多義語の語義として選択する語義推定ステップとを備えている。

また、本発明にかかるプログラムは、自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する単語出現確率算出装置のコンピュータに、前述した単語出現確率算出方法の各ステップを実行させる。
また、本発明にかかる他のプログラムは、自然言語からなる入力文に含まれる単語のうち複数の語義を有する多義語について語義を推定する語義推定装置のコンピュータに、前述した語義推定方法の各ステップを実行させる。

また、本発明にかかる記録媒体は、前述したプログラムが記録された、コンピュータで読み取り可能な記録媒体である。
また、本発明にかかる記録媒体は、前述した他のプログラムが記録された、コンピュータで読み取り可能な記録媒体である。

本発明によれば、各語義別見出語のうちから選択した２つの語義別見出語の共起確率として、これら２つの語義別見出語が同一語義文に共起する直接共起確率だけでなく、これら２つの語義別見出語が任意の語義別見出語を介して間接的な共起関係となる間接共起確率を含む共起確率を算出することができる。
したがって、膨大な量の学習コーパスを必要とすることなく、精度の高い単語出現確率を算出できる。

第１の実施の形態にかかる単語出現確率算出装置の構成を示すブロック図である。第１の実施の形態にかかる単語出現確率算出装置の動作を示すフロー図である。第１の実施の形態にかかる単語出現確率算出処理を示すフローチャートである。辞書ＤＢの構成例である。語義別見出語ＤＢの構成例である。直接出現確率の構成例である。間接的共起関係を示す説明図である。間接共起確率の構成例である。単語出現確率の構成例である。第２の実施の形態にかかる語義推定装置を示すブロック図である。第２の実施の形態にかかる語義推定装置の語義推定処理を示すフローチャートである。語義推定結果例である。他の語義推定結果例である。

次に、本発明の実施の形態について図面を参照して説明する。
［第１の実施の形態］
まず、図１を参照して、本発明の第１の実施の形態にかかる単語出現確率算出装置について説明する。図１は、本発明の第１の実施の形態にかかる単語出現確率算出装置の構成を示すブロック図である。
この単語出現確率算出装置１は、サーバやパーソナルコンピュータなどの一般的な情報処理装置からなり、自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する機能を有している。

本実施の形態では、単語出現確率算出装置１において、辞書データベースに登録されている各見出語について、当該見出語の語義ごとに当該見出語を互いに異なる語義別見出語として展開した後、各語義別見出語のうちから選択した１つの語義別見出語と各語義文から選択した１つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率を算出するとともに、異なる２つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の２つの語義別見出語が１つ以上の語義別見出語を介して間接的に共起する間接共起確率を、各語義別見出語のうちから選択した２つの語義別見出語からなる語義別見出語対ごとに算出し、この後、各語義別見出語対の間接共起確率と各語義別見出語の直接出現確率との積で得られる確率に基づき、単語出現確率を算出する。

以下、図１を参照して、本発明の一実施の形態にかかる単語出現確率算出装置の構成について詳細に説明する。
単語出現確率算出装置１には、主な機能部として、一般的な情報処理装置と同様に、入出力インターフェース部（以下、入出力Ｉ／Ｆ部という）１０、通信インターフェース部（以下、通信Ｉ／Ｆ部という）１１、操作入力部１２、画面表示部１３、記憶部１４、および演算処理部１５が設けられている。

入出力Ｉ／Ｆ部１０は、専用のデータ入出力回路からなり、ＣＤやＤＶＤ、さらには不揮発性メモリカードなどの記録媒体Ｍとの間で、演算処理部１５からの指示に応じて、辞書データベースなどの各種データやプログラムを入出力する機能を有している。
通信Ｉ／Ｆ部１１は、専用のデータ通信回路からなり、ＬＡＮなどの通信回線を介して接続されたサーバなどの外部装置との間で、演算処理部１５からの指示に応じて、辞書データベースなどの各種データやプログラムを送受信する機能を有している。

操作入力部１２は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部１５へ出力する機能を有している。
画面表示部１３は、ＬＣＤやＰＤＰなどの画面表示装置からなり、演算処理部１５からの指示に応じて辞書データベースや単語出現確率などの各種データや操作画面を画面表示する機能を有している。

記憶部１４は、ハードディスクやメモリなどの記憶装置からなり、演算処理部１５で実行するプログラム１４Ｐや、単語出現確率の算出処理に用いる各種処理情報を記憶する機能を有している。プログラム１４Ｐは、例えば入出力Ｉ／Ｆ部１０を介して記録媒体Ｍから読み込まれ、あるいは通信Ｉ／Ｆ部１１を介して外部装置（図示せず）から読み込まれ、記憶部１４へ予め格納される。

記憶部１４で記憶する主な処理情報としては、辞書データベース（以下、辞書ＤＢという）１４Ａ、語義別見出語データベース（以下、語義別見出語ＤＢという）１４Ｂ、直接出現確率１４Ｃ、間接共起確率１４Ｄ、および単語出現確率１４Ｅがある。

演算処理部１５は、ＣＰＵなどのマイクロプロセッサとその周辺回路からなり、記憶部１４に格納されているプログラム１４Ｐを読み出して実行することにより、上記ハードウェアとプログラム１４Ｐとを協働させて各種処理部を実現する。
演算処理部１５で実現される主な処理部としては、見出語展開部１５Ａ、直接出現確率算出部１５Ｂ、間接共起確率算出部１５Ｃ、および単語出現確率算出部１５Ｄがある。

見出語展開部１５Ａは、辞書ＤＢ１４Ａに登録されている各見出語を、当該見出語の語義ごとに語義別見出語として別々に展開する機能と、当該見出語と語義別見出語との対応関係を語義別見出語ＤＢ１４Ｂへ登録する機能とを有している。
直接出現確率算出部１５Ｂは、見出語展開部１５Ａで展開した語義別見出語ＤＢ１４Ｂの各語義別見出語から選択した１つの語義別見出語と、辞書ＤＢ１４Ａの各語義文から選択した１つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率を算出する機能を有している。

間接共起確率算出部１５Ｃは、異なる２つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の２つの語義別見出語が１つ以上の語義別見出語を介して間接的に共起する間接共起確率を、語義別見出語ＤＢ１４Ｂの各語義別見出語のうちから選択した２つの語義別見出語からなる語義別見出語対ごとに算出する機能を有している。

単語出現確率算出部１５Ｄは、間接共起確率算出部１５Ｃで算出した各語義別見出語対の間接共起確率を行列要素とする間接共起確率行列Ｃと直接出現確率算出部１５Ｂで算出した各語義別見出語の直接出現確率から生成した直接出現確率行列Ａとの行列積ＣＡを算出する機能と、この行列積ＣＡを構成する各行列要素を単語出現確率として算出する機能とを有している。

［第１の実施の形態の動作］
次に、図２および図３を参照して、本発明の第１の実施の形態にかかる単語出現確率算出装置の動作について説明する。図２は、本発明の第１の実施の形態にかかる単語出現確率算出装置の動作を示すフロー図である。図３は、本発明の第１の実施の形態にかかる単語出現確率算出処理を示すフローチャートである。
単語出現確率算出装置１の演算処理部１５は、操作入力部１２で検出されたオペレータ操作に応じて、図２および図３の単語出現確率算出処理を実行する。

まず、演算処理部１５は、見出語展開部１５Ａにより、辞書ＤＢ１４Ａに登録されている各見出語を読み出して、当該見出語の語義ごとに語義別見出語として別々に展開し（ステップ１００）、当該見出語と語義別見出語との対応関係を、記憶部１４の語義別見出語ＤＢ１４Ｂへ登録する（ステップ１０１）。

図４は、辞書ＤＢの構成例である。ここでは、学習コーパスとして、個々の見出語に対応して１つ以上の語義ごとに個別の語義文が予め登録されている。この例では、「ドライバー」と「車」という見出語について、それぞれ３つの語義が存在しており、これら語義ごとに異なる語義文が登録されている。辞書ＤＢ１４Ａとしては、公知の文献（例えば、笠原要，佐藤浩史，田中貴秋，藤田早苗，金杉友子，天野成昭．「基本語意味データベース：Lexeed」の構築（辞書，コーパス）．情報処理学会研究報告．自然言語処理研究会報告，2004(1):75-82, January 2004.）で述べられているものを利用してもよい。

本発明では、辞書ＤＢの各見出語について、語義ごとに異なるＩＤを与え、異なる見出語、すなわち語義別見出語として扱う。見出語展開部１５Ａは、例えば図４の「ドライバー」という見出語について、その３つの語義ごとに、それぞれ「ドライバー１」，「ドライバー２」，「ドライバー３」という語義別見出語へ展開し、それぞれ個別のＩＤを付与する。また「車」という見出語については、その３つの語義ごとに、それぞれ「車１」，「車２」，「車３」という語義別見出語へ展開し、それぞれ個別のＩＤを付与する。

図５は、語義別見出語ＤＢの構成例である。ここでは、個々の見出語の語義ごとに、語義別見出語とそれぞれ固有のＩＤとが登録されている。
なお、これら見出語および語義別見出語は、図３の単語出現確率算出処理において、すべてＩＤで処理される。

次に、演算処理部１５は、直接出現確率算出部１５Ｂにより、語義別見出語ＤＢ１４Ｂに登録されている各語義別見出語のうちから選択した１つの語義別見出語と、語義別見出語ＤＢ１４Ｂに登録されている各語義別見出語の語義文のうちから選択した１つの語義文とからなる組み合わせごとに、直接出現確率１４Ｃを算出する（ステップ１０２）。本発明でいう直接出現確率とは、任意の語義文に語義別見出語が直接出現する確率のことである。この際、各語義文には、当該語義文の語義別見出語が含まれているものとする。

単語ｗ_i（ｉは１以上の整数）の語義文ｓ_iに含まれる単語ｗ_j（ｊは１以上の整数）の数をＱ_i（ｗ_j（０））とした場合、単語ｗ_iの語義文ｓ_i内に単語ｗ_jが出現する直接出現確率Ｐ（ｗ_j（０）｜ｓ_i）は、次の式（１）で算出される。なお、ｗ_j（０）の上付変数（０）は、後述する共起の展開次数を示している。

図６は、直接出現確率の構成例である。ここでは、語義別見出語ごとに、直接出現確率が登録されている。
したがって、語義別見出語ＤＢ１４Ｂに登録されている語義別見出語と語義文の数をｍ（ｍは２以上の整数）とした場合、個々の語義別見出語ｗ_jが、それぞれの語義別見出語ｗ_iの語義文ｓ_i内に直接的に出現する直接出現確率は、これらを行列要素とする直接出現確率行列Ａとして、次の式（２）のように表現される。

次に、演算処理部１５は、間接共起確率算出部１５Ｃにより、語義別見出語ＤＢ１４Ｂに登録されている各語義別見出語のうちから選択した２つの語義別見出語からなる語義別見出語対ごとに、間接共起確率１４Ｄを算出する。本発明でいう間接共起確率とは、任意の語義別見出語が複数の語義文においてそれぞれ異なる語義別見出語と共起するという連接共起関係を経ることにより、任意の２つの語義別見出語が１つ以上の語義別見出語を介して間接的に共起する確率のことである。

語義文ｓ内に出現する語義別見出語ｗ_iの出現確率をＰ（ｗ_i｜ｓ）とし、語義別見出語ｗ_jが与えられたときに語義文ｓが選択される確率をＰ（ｓ｜ｗ_j）とし、すべての語義別見出語のうち語義別見出語ｗ_jが選択される確率をＰ（ｗ_j）とした場合、任意の義語文ｓ内に、２つの語義別見出語ｗ_i，ｗ_jが同時に含まれる確率、すなわち直接共起確率Ｐ（ｗ_i，ｗ_j）は、次の式（３）で算出される。

ここで、直接出現確率行列Ａの転置行列をＡ^Tとし、この転置行列Ａ^Tの列ベクトルを正規化するための正規化行列をＮとした場合、式（３）におけるＰ（ｗ_i｜ｓ）Ｐ（ｓ｜ｗ_j）の項は、次の式（４）で表される行列Ｃの行列要素となる。

従来技術では、任意の２つの語義別見出語が共起する共起確率として、このような同一義語文に２つの語義別見出語が直接含まれる直接共起確率に基づき、語義別見出語からなる単語ごとに単語出現確率を算出していたことになる。
本発明では、このような同一義語文に２つの語義別見出語が含まれる直接共起確率だけではなく、任意の単語を介して２つの語義別見出語が間接的に共起関係となる間接共起確率についても算出し、この間接共起確率を、任意の２つの語義別見出語が共起する共起確率の一部として含めている。

図７は、連接共起関係を示す説明図である。ここでは、語義文ｓ内に２つの語義別見出語ｗ_i，ｗが含まれており、語義文ｓ^'内に２つの語義別見出語ｗ_j，ｗが含まれている。したがって、語義別見出語ｗは、語義文ｓ，ｓ^'の両方に出現しており、それぞれ語義別見出語ｗ_i，ｗ_jと直接共起関係にある。
この場合、語義別見出語ｗ_iを含む語義文ｓには、語義別見出語ｗ_jが出現しないものの、語義別見出語ｗを介して、語義別見出語ｗ_iと語義別見出語ｗ_jとの間に間接的な共起関係が存在していることがわかる。

本発明では、このような語義別見出語ｗを介した２つの直接共起関係を連接共起関係という。また、１つの語義別見出語ｗを介した２つの語義別見出語の間接共起を１次展開した共起といい、ｎ個（ｎは１以上の整数）の語義別見出語ｗを介した２つの語義別見出語の間接共起をｎ＋１次展開した共起という。なお、前述した式（３）の直接共起確率は０次展開した共起と云える。

任意の２つの語義文をｓ，ｓ^'とし、語義文ｓ内に出現する語義別見出語ｗ_iの出現確率をＰ（ｗ_i｜ｓ）とし、語義別見出語ｗが与えられたときに語義文ｓが出現する確率をＰ（ｓ｜ｗ）とし、語義文ｓ^'内に出現する語義別見出語ｗの出現確率をＰ（ｗ｜ｓ^'）とし、語義別見出語ｗ_jが与えられたときに語義文ｓ^'が出現する確率をＰ（ｓ^'｜ｗ_j）とし、すべての語義別見出語のうち語義別見出語ｗ_jが与えられる確率をＰ（ｗ_j）とした場合、ある語義別見出語ｗを介して結び付けられた２つの語義別見出語ｗ_i，ｗ_jが間接的に共起関係、すなわち１次展開した共起関係に関する間接共起確率Ｐ（ｗ_i，ｗ_j）は、次の式（５）で求められる。

この式（５）において、Ｐ（ｗ_i｜ｓ）Ｐ（ｓ｜ｗ）Ｐ（ｗ｜ｓ^'）Ｐ（ｓ^'｜ｗ_j）の項は、直接出現確率行列Ａ、転置行列Ａ^T、および正規化行列Ｎを用いれば、Ｄ＝ＡＡ^TＮＡＡ^TＮで表される。ここで、Ｂ＝Ａ^TＮとした場合、Ｄ＝ＡＢＡＢ＝（ＡＢ）²となることから、一般に語義文をｎ次展開した共起については、Ｄ＝（ＢＡ）ⁿ⁺¹で表現できることがわかる。
したがって、通常、共起関係を展開するごとに間接共起確率は減少することから、ｎ次展開時における定数をＰ_nとした場合、０次からｎ次まで展開した場合の間接共起確率の集合は、次の式（６）の間接共起確率行列Ｃで表される。

また、連接共起関係を展開するごとに定数Ｐ_nが一定の減少率ａ（０＜ａ＜１の実数）で減少すると仮定し、Ｒを正規化のための定数とした場合、式（６）の間接共起確率行列Ｃは、次の式（７）で表される。

ここで、定数Ｒと減少率ａとの関係から、次の式（８）のように、定数Ｒを減少率ａで表すことができる。

このため、式（７）は、式（８）に基づいて変形され、結果として次の式（９）に示す関係が得られる。

間接共起確率算出部１５Ｃは、式（９）に基づいて、間接共起確率行列Ｃを求めることにより、語義別見出語ＤＢ１４Ｂの各語義別見出語のうちから選択した２つの語義別見出語からなる語義別見出語対ごとに、任意の２つの語義別見出語が１つ以上の語義別見出語を介して間接的に共起する間接共起確率を算出する（ステップ１０３）。図８は、間接共起確率の構成例である。ここでは、２つの語義別見出語からなる語義別見出語対ごとに、間接共起確率が登録されている。

このようにして算出した間接共起確率行列Ｃは、単語ｗ_jが存在する文中に、単語ｗ_iが存在する確率、すなわち間接共起確率Ｐ（ｗ_i｜ｗ_j）を行列要素として持つ行列であると云える。
したがって、間接共起確率行列Ｃと直接出現確率行列Ａの行列積ＣＡは、文ｓ_j中に単語ｗ_iが現れる確率Ｐ（ｗ_i｜ｓ_j）を行列要素として持つ行列となる。

次に、演算処理部１５は、単語出現確率算出部１５Ｄは、間接共起確率算出部１５Ｃで算出した各語義別見出語対の間接共起確率１４Ｄを行列要素とする間接共起確率行列Ｃと、直接出現確率算出部１５Ｂで算出した各語義別見出語の直接出現確率１４Ｃを行列要素とする直接出現確率行列Ａとの行列積ＣＡを算出し、この行列積ＣＡを構成する各行列要素を単語出現確率として算出して、記憶部１４へ保存し（ステップ１０４）、一連の単語出現確率算出処理を終了する。式（１０）に行列積ＣＡを示す。

図９は、単語出現確率の構成例である。ここでは、語義別見出語ごとに、単語出現確率が登録されている。

［第１の実施の形態の効果］
このように、本実施の形態では、見出語展開部１５Ａにより、辞書ＤＢ１４Ａに登録されている各見出語について、当該見出語の語義ごとに当該見出語を互いに異なる語義別見出語として展開し、直接出現確率算出部１５Ｂにより、各語義別見出語のうちから選択した１つの語義別見出語と各語義文から選択した１つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率１４Ｃを算出するとともに、間接共起確率算出部１５Ｃにより、異なる２つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の２つの語義別見出語が１つ以上の語義別見出語を介して間接的に共起する間接共起確率１４Ｄを、各語義別見出語のうちから選択した２つの語義別見出語からなる語義別見出語対ごとに算出し、単語出現確率算出部１５Ｄにより、各語義別見出語対の間接共起確率１４Ｄと各語義別見出語の直接出現確率１４Ｃとの積で得られる確率に基づき、単語出現確率１４Ｅを算出する。

これにより、各語義別見出語のうちから選択した２つの語義別見出語の共起確率として、これら２つの語義別見出語が同一語義文に共起する直接共起確率だけでなく、これら２つの語義別見出語が任意の語義別見出語を介して間接的な共起関係となる間接共起確率を含む共起確率を算出することができる。
したがって、膨大な量の学習コーパスを必要とすることなく、精度の高い単語出現確率を算出できる。

また、本実施の形態では、間接共起確率算出部１５Ｃにより、直接出現確率行列Ａの転置行列を行列Ａ^Tとし、当該行列Ａ^Tの列ベクトルを正規化するための正規化行列を行列Ｎとし、行列Ａ^Tと行列Ｎの行列積Ａ^TＮを行列Ｂとし、単位行列を行列Ｉとし、連接共起関係の展開数に応じて間接共起確率が減少する減少率をａとした場合、（Ｉ−ａ（ＡＢ）Ｃ）＝（１−ａ）（ＡＢ）により間接共起確率行列Ｃを算出するようにしたので、簡素な計算式で間接共起確率を算出することができる。

［第２の実施の形態］
次に、図１０を参照して、本発明の第２の実施の形態にかかる語義推定装置について説明する。図１０は、本発明の第２の実施の形態にかかる語義推定装置を示すブロック図であり、図１と同じまたは同等部分には同一符号を付してある。
この語義推定装置２は、サーバやパーソナルコンピュータなどの一般的な情報処理装置からなり、自然言語からなる任意の文内に出現する各単語の語義を推定する機能を有している。

本実施の形態にかかる語義推定装置２には、第１の実施の形態にかかる単語出現確率算出装置１の構成に加え、演算処理部１５に語義推定部１５Ｅが設けられている。
語義推定部１５Ｅは、見出語展開部１５Ａ、直接出現確率算出部１５Ｂ、間接共起確率算出部１５Ｃ、および単語出現確率算出部１５Ｄにより、辞書ＤＢ１４Ａに登録されている各語義別見出語に関する単語出現確率１４Ｅに基づいて、入力文ｓ^*に含まれる単語の語義を推定する機能を有している。

［第２の実施の形態の動作］
次に、図１１を参照して、本発明の第２の実施の形態にかかる語義推定装置の動作について説明する。図１１は、本発明の第２の実施の形態にかかる語義推定装置の語義推定処理を示すフローチャートである。
語義推定装置２の演算処理部１５は、操作入力部１２で検出されたオペレータ操作に応じて、図１１の語義推定処理を実行する。ここでは、第１の実施の形態で説明した単語出現確率算出処理により、辞書ＤＢ１４Ａに登録されている各語義別見出語に関する単語出現確率１４Ｅが予め算出されて、記憶部１４に保存されているものとする。

まず、演算処理部１５は、入出力Ｉ／Ｆ部１０により、自然言語からなる入力文ｓ^*を取得し（ステップ１１１）、語義推定部１５Ｅにより、入力文ｓ^*から抽出した各単語に対応する語義別見出語を語義別見出語ＤＢ１４Ｂからそれぞれ取得し、これら語義別見出語の単語出現確率を記憶部１４の単語出現確率１４Ｅから取得する（ステップ１１２）。
次に、語義推定部１５Ｅは、単語出現確率１４Ｅに基づいて、これら語義別見出語の組み合わせごとに、これら組み合わせが入力文ｓ^*に出現する出現確率を算出する（ステップ１１３）。

入力文ｓ^*に含まれる語義別見出語をｗ_i，ｗ_j，…，ｗ_kとし、入力文ｓ^*に出現する語義別見出語ｗの出現確率をＰ（ｗ｜ｓ^*）とし、入力文ｓ^*の事前生起確率をＰ（ｓ^*）とした場合、これら組み合わせが入力文ｓ^*に出現する出現確率Ｐ（ｗ_i，ｗ_j，…，ｗ_k）は、次の式（１１）で算出される。

したがって、出現確率Ｐ（ｗ_i，ｗ_j，…，ｗ_k）が最も大きい値をとる語義別見出語をｗ_i，ｗ_j，…，ｗ_kの組み合わせが、入力文ｓ^*に対する尤もらしい語義の推定結果となる。なお、事前生起確率Ｐ（ｓ^*）は、語義別見出語をｗ_i，ｗ_j，…，ｗ_kによらず一定と見なすことができる。
語義推定部１５Ｅは、このようにして語義推定部１５Ｅの各単語の語義を推定して（ステップ１１４）、その語義推定結果Ｙを入出力Ｉ／Ｆ部１０から出力し、あるいは画面表示部１３で画面表示し、一連の語義推定処理を終了する。

図１２は、「ドライバーで車を修理する」という入力文に対する語義推定結果である。この場合、入力文には「ドライバ」、「車」、および「修理」という３つの単語が含まれている。このうち語義を複数持つ単語、すなわち多義語は「ドライバ」と「車」であり、これらは図４で示したように、それぞれ３つの語義が辞書ＤＢ１４Ａに登録されている。したがって、これら多義語に関する語義別見出語の組み合わせは、３×３の９通りとなり、語義推定部１５Ｅでは、これら９通りの組み合わせごとに、出現確率Ｐを算出する。

図１２には、各単語の語義ごとに、当該語義別見出語を用いた組み合わせのうち最も大きい出現確率Ｐをスコアとして記載されている。ここでは、単語「ドライバ」のうち語義別見出語「ドライバ１」のスコアが最も大きく、単語「車」のうち語義別見出語「車３」のスコアが最も大きい。このことから、入力文ｓ^*は「ドライバ１」と「車３」の組み合わせが尤もらしいと推定される。したがって、入力文ｓ^*の語義は、「ドライバー（ねじまわし）で車（自動車…）を修理する」と推定される。

図１３は、「ドライバーが車を運転する」という入力文に対する推定結果である。この場合、入力文には「ドライバ」、「車」、および「運転」という３つの単語が含まれている。このうち語義を複数持つ単語、すなわち多義語は「ドライバ」と「車」であり、これらは図４で示したように、それぞれ３つの語義が辞書ＤＢ１４Ａに登録されている。したがって、これら多義語に関する語義別見出語の組み合わせは、３×３の９通りとなり、語義推定部１５Ｅでは、これら９通りの組み合わせごとに、出現確率Ｐを算出する。

図１３には、各単語の語義ごとに、当該語義別見出語を用いた組み合わせのうち最も大きい出現確率Ｐをスコアとして記載されている。ここでは、単語「ドライバ」のうち語義別見出語「ドライバ２」のスコアが最も大きく、単語「車」のうち語義別見出語「車３」のスコアが最も大きい。このことから、入力文ｓ^*は「ドライバ１」と「車３」の組み合わせが尤もらしいと推定される。したがって、入力文ｓ^*の語義は、「ドライバー（自動車を運転する人）が車（自動車…）を運転する」と推定される。

［第２の実施の形態の効果］
このように、本実施の形態によれば、膨大な量の学習コーパスを必要とすることなく、精度の高い単語出現確率を算出でき、高い精度で入力文に含まれる単語の語義を推定することが可能となる。

また、本実施の形態では、入力文に含まれる複数の単語の組み合わせに関する出現確率を用いてこれら語義を推定するようにしたので、複数の単語の語義を一括して推定することができ、効率よく語義を推定することが可能となる。
なお、入力文に含まれるすべての単語の組み合わせを用いてもよいが、これら単語の一部からなる組み合わせを複数生成し、これら組み合わせごとに語義を推定してもよい。この際、入力文がｎ個の単語から構成されている場合、これら単語からｍ個の単語を選択する選択枠を、先頭から順に１個ずつずらして設定し、この選択枠で選択したｍ個の単語の組み合わせごとに、当該ｍ個の先頭に位置する単語の語義を推定するようにしてもよい。

［実施の形態の拡張］
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。

また、第２の実施の形態では、語義推定装置２内に、単語出現確率算出装置１と同様の構成を含む場合を例として説明したが、これに限定されるものではなく、語義推定装置２の外部に、単語出現確率算出装置１を接続した語義推定システムを構成し、この単語出現確率算出装置１から取得した単語出現確率１４Ｅに基づき、語義推定装置２で入力文の語義を推定してもよい。これにより、語義推定装置２の構成として、単語出現確率算出処理のみに要する構成を省くことができる。

１…単語出現確率算出装置、２…語義推定装置、１０…入出力Ｉ／Ｆ部、１１…通信Ｉ／Ｆ部、１２…操作入力部、１３…画面表示部、１４…記憶部、１４Ａ…辞書ＤＢ、１４Ｂ…語義別見出語ＤＢ、１４Ｃ…直接出現確率、１４Ｄ…間接共起確率、１４Ｅ…単語出現確率、１４Ｐ…プログラム、１５…演算処理部、１５Ａ…見出語展開部、１５Ｂ…直接出現確率算出部、１５Ｃ…間接共起確率算出部、１５Ｄ…単語出現確率算出部、１５Ｅ…語義推定部、ｓ^*…入力文、Ｙ…語義推定結果、Ｍ…記録媒体。

Claims

自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する単語出現確率算出装置であって、
個々の見出語について、当該見出語の語義ごとに個別の語義文が登録されている辞書データベースと、
前記各見出語について、当該見出語の語義ごとに当該見出語を互いに異なる語義別見出語として展開する見出語展開部と、
前記各語義別見出語のうちから選択した１つの語義別見出語と前記各語義文から選択した１つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率を算出する直接出現確率算出部と、
異なる２つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の２つの語義別見出語が１つ以上の語義別見出語を介して間接的に共起する間接共起確率を、前記各語義別見出語のうちから選択した２つの語義別見出語からなる語義別見出語対ごとに算出する間接共起確率算出部と、
前記各語義別見出語対の間接共起確率と前記各語義別見出語の直接出現確率との積で得られる確率に基づき、前記単語出現確率を算出する単語出現確率算出部と
を備えることを特徴とする単語出現確率算出装置。
請求項１に記載の単語出現確率算出装置において、
前記間接共起確率算出部は、前記直接出現確率行列Ａの転置行列を行列Ａ^Tとし、当該行列Ａ^Tの列ベクトルを正規化するための正規化行列を行列Ｎとし、行列Ａ^Tと行列Ｎの行列積Ａ^TＮを行列Ｂとし、単位行列を行列Ｉとし、前記連接共起関係の展開数に応じて前記間接共起確率が減少する減少率をａとした場合、（Ｉ−ａ（ＡＢ）Ｃ）＝（１−ａ）（ＡＢ）により前記間接共起確率行列Ｃを算出する
ことを特徴とする単語出現確率算出装置。
自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する単語出現確率算出装置で用いられる単語出現確率算出方法であって、
辞書データベースが、見出語の語義ごとに個別の語義文を登録する登録ステップと、
見出語展開部が、前記各見出語について、当該見出語の語義ごとに当該見出語を互いに異なる語義別見出語として展開する見出語展開ステップと、
直接出現確率算出部が、前記各語義別見出語のうちから選択した１つの語義別見出語と前記各語義文から選択した１つの語義文とからなる組み合わせごとに、当該語義文内に当該語義別見出語が出現する直接出現確率を算出する直接出現確率算出ステップと、
間接共起確率算出部が、異なる２つの見出語が別個の語義文において共通の語義別見出語と共起するという連接共起関係を経ることにより、任意の２つの語義別見出語が１つ以上の語義別見出語を介して間接的に共起する間接共起確率を、前記各語義別見出語のうちから選択した２つの語義別見出語からなる語義別見出語対ごとに算出する間接共起確率算出ステップと、
単語出現確率算出部が、前記各語義別見出語対の間接共起確率と前記各語義別見出語の直接出現確率との積で得られる確率に基づき、前記単語出現確率を算出する単語出現確率算出ステップと
を備えることを特徴とする単語出現確率算出方法。
請求項３に記載の単語出現確率算出方法において、
前記間接共起確率算出ステップは、前記直接出現確率行列Ａの転置行列を行列Ａ^Tとし、当該行列Ａ^Tの列ベクトルを正規化するための正規化行列を行列Ｎとし、行列Ａ^Tと行列Ｎの行列積Ａ^TＮを行列Ｂとし、単位行列を行列Ｉとし、前記連接共起関係の展開数に応じて前記間接共起確率が減少する減少率をａとした場合、（Ｉ−ａ（ＡＢ）Ｃ）＝（１−ａ）（ＡＢ）により前記間接共起確率行列Ｃを算出するステップを含むことを特徴とする単語出現確率算出方法。
自然言語からなる入力文に含まれる単語のうち複数の語義を有する多義語について語義を推定する語義推定装置であって、
請求項１に記載の単語出現確率算出装置で算出された語義別見出語ごとの単語出現確率を記憶する記憶部と、
前記各多義語について、当該多義語の語義ごとに単語出現確率を取得し、これら多義語の語義の組み合わせごとに、これら語義の組み合わせが前記入力文に出現する出現確率をそれぞれ算出し、最も出現確率の高い組み合わせを構成する語義を、それぞれの多義語の語義として選択する語義推定部と
を備えることを特徴とする語義推定装置。
自然言語からなる入力文に含まれる単語のうち複数の語義を有する多義語について語義を推定する語義推定装置で用いられる語義推定方法であって、
記憶部が、請求項１に記載の単語出現確率算出装置で算出された語義別見出語ごとの単語出現確率を記憶する記憶ステップと、
語義推定部が、前記各多義語について、当該多義語の語義ごとに単語出現確率を取得し、これら多義語の語義の組み合わせごとに、これら語義の組み合わせが前記入力文に出現する出現確率をそれぞれ算出し、最も出現確率の高い組み合わせを構成する語義を、それぞれの多義語の語義として選択する語義推定ステップと
を備えることを特徴とする語義推定方法。
自然言語からなる任意の文内に、任意の単語が出現する単語出現確率を算出する単語出現確率算出装置のコンピュータに、請求項３または請求項４に記載の各ステップを実行させるプログラム。
自然言語からなる入力文に含まれる単語のうち複数の語義を有する多義語について語義を推定する語義推定装置のコンピュータに、請求項６に記載の各ステップを実行させるプログラム。
請求項７に記載のプログラムが記録された、コンピュータで読み取り可能な記録媒体。
請求項８に記載のプログラムが記録された、コンピュータで読み取り可能な記録媒体。