JP2007323475A - 自然言語における多義解消装置及びコンピュータプログラム - Google Patents

自然言語における多義解消装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2007323475A
JP2007323475A JP2006154497A JP2006154497A JP2007323475A JP 2007323475 A JP2007323475 A JP 2007323475A JP 2006154497 A JP2006154497 A JP 2006154497A JP 2006154497 A JP2006154497 A JP 2006154497A JP 2007323475 A JP2007323475 A JP 2007323475A
Authority
JP
Japan
Prior art keywords
word
candidate
semantic
meaning
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006154497A
Other languages
English (en)
Other versions
JP5146979B2 (ja
Inventor
Eiichiro Sumida
英一郎 隅田
Fumiaki Sugaya
史昭 菅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
KDDI Corp
Original Assignee
ATR Advanced Telecommunications Research Institute International
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International, KDDI Corp filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2006154497A priority Critical patent/JP5146979B2/ja
Publication of JP2007323475A publication Critical patent/JP2007323475A/ja
Application granted granted Critical
Publication of JP5146979B2 publication Critical patent/JP5146979B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】自然言語に伴うあいまい性を、容易に、かつ信頼性高く解決できる、自然言語における多義解消装置を提供する。
【解決手段】多義解消装置50は、入力文中のある単語Wと、その単語に対応する意味候補集合中の意味候補Rkとの組合せ(W,Rk)の各々について、インターネット52から、それら語が共起する文書の集合を収集する検索部100と、収集された文書の集合を学習データとして用い、単語Wと、単語Wの文書中の文脈を表す特徴量ベクトルとが与えられると、単語Wの当該文脈中での意味として最適な意味候補を意味候補集合中から選択する決定木82を自動的に作成する決定木作成部80と、入力文において、単語Wの文脈から得た特徴量ベクトルを用い、単語Wの意味として最適なものを、意味候補Rkの集合の中から決定木82を用いて選択する分類用特徴ベクトル作成部84及び分類実行部86とを含む。
【選択図】 図2

Description

この発明は自然言語処理に関し、特に、単語の読み(日本語における仮名表記)、アクロニム(頭字語)のフルスペル、及び二つの言語の間での訳語の対応などに見られるあいまい性を解消するための自然言語処理に関する。
自然言語には、あいまい性が常に付きまとう。例えば同形異音語という問題がある。同形異音語とは、読みが複数ある単語のことである。例えば英語の「bow」という単語には、「bow」(蝶型リボン)と「bow」(船首)という二つの読み方がある。日本語でもこうした例は多い。例えば「大平」という語は、「オオヒラ」とも、「タイヘイ」とも、「オオダイラ」とも読める。
こうしたあいまい性は、アクロニムにも存在する。例えば「ACL」というアクロニムは、「The Association for Computational Linguistics」、「Anterior Cruciate Ligament」、及び「Access Control List」のいずれとも解釈できる。同様のあいまい性は、翻訳の際の訳語の決め方等にも見出すことができる。
人間の場合、こうしたあいまい性については、その語が生起した状況などに応じて適宜適切に判断をしたり、いずれかの手段を用いて候補をさがし、その中で状況に応じて最も適していると思われるものを選択したりすることで解決している。しかし、自然言語処理でそのような処理を実現することは困難である。
このようなあいまい性は、自然言語処理において重大な問題となり得る。例えば、日本語テキストの読上げにおいて、同形異音語に遭遇した場合、適切な発音で読上げを行なうためには、その発音(かな表記)を決定する必要がある。さもないと、不適切な読上げが行なわれてしまう。
こうした問題を解決するための提案が非特許文献1でなされている。非特許文献1では、予め、ある単語Wとその対応する意味Siとを記述した学習データを人手で用意し、その学習データを用いて、ある単語Wが与えられたときに意味Siのうちで適切なものを選択する分類器を作成する。
梅村祥之、清水司、「音声合成システムのための同形異音語の読み分け」、豊田中央研究所R&Dレビュー、2000年、第35巻第1号、67頁〜74頁
しかし、非特許文献1に開示された方法では、学習データを人手で用意する必要があり、時間と費用とがかさむという問題がある。また、限られた人の手によって学習データが作成されるので、学習データに偏りが生ずる可能性もあるため、信頼性が低いという問題もある。
それ故に本発明の目的は、自然言語に伴うあいまい性を、容易に、かつ信頼性高く解決できる、自然言語における多義解消装置を提供することである。
本発明の第1の局面によれば、自然言語における多義解消装置は、自然言語文からなる入力文において、ある単語と、入力文においてある単語が置かれた文脈と、ある単語の意味を表す可能性のある複数の意味候補を含む意味候補の集合とが与えられると、当該意味候補の集合の中から、文脈においてある単語の意味として最も適切なものを選択する、自然言語における多義解消装置であって、ある単語と、意味候補集合中の意味候補との組合せの各々について、所定のコーパスから、当該組合せを構成する語が共起する文書の集合を収集するための文書収集手段と、文書収集手段によって組合せの各々について収集された文書の集合を学習データとして用い、ある単語と、その単語の文書中の文脈とが与えられると、ある単語の当該文脈中での意味として最適な意味候補を意味候補集合中から選択する分類器を自動的に作成するための分類器作成手段と、入力文において、ある単語が置かれた文脈に基づいて、ある単語の意味として最適なものを、意味候補の集合の中から分類器を用いて選択するための分類実行手段とを含む。
入力文中のある単語と、その単語が置かれた文脈と、その単語に意味を表す可能性のある複数の意味候補を含む意味候補の集合が与えられると、その単語と意味候補との組合わせの各々について、文書収集手段が所定のコーパスから当該組合せを構成する単語が共起する文書の集合を収集する。分類器作成手段は、組合せの各々について収集された文書の集合を学習データとして用いて分類器を作成する。この分類器は、ある単語と、その単語の文書中の文脈とが与えられると、ある単語の当該文脈中での意味として最適な意味候補を意味候補集合中から選択する機能を持つ。分類手段は、入力文中の単語と、その単語が置かれた文脈とを、このようにして作成された分類器に与え、その結果に基づいて、入力文中の単語の意味として最適なものを、意味候補の集合の中から選択する。
すなわち、この装置では、ある単語と、その単語の文脈と、その単語に対応する可能性のある複数の意味候補とが与えられると、文脈から適切と思われる意味候補を自動的に選択できる。この作業には人手を介在させる必要はない。従って、容易に適切な意味候補を選択し、入力された単語の多義性を解消できる多義解消装置を提供できる。
好ましくは、分類器作成手段は、文書収集手段によって組合せの各々について収集された文書の集合のうち、集合に含まれる文書の数が多いものを所定の基準に従って選択し、それら文書の集合に対応する意味候補のみを意味候補の集合の要素として選択する処理を行なうための意味候補選択手段と、意味候補選択手段により選択された文書集合を学習データとして用い、ある単語と、その単語の文書中の文脈とが与えられると、ある単語の当該文脈中での意味として最適な意味候補を、意味候補集合中から選択する分類器を機械学習により自動的に作成するための機械学習手段とを含む。
収集された文書集合のうち、集合に含まれる文書の数が少ないものは意味候補選択手段により棄却される。集合に含まれる文書の数が少ないということは、その単語と、その集合に対応する意味候補とが共起する可能性が他と比較して少ないということである。従って、与えられた文脈におけるある単語の意味として不適切なものを排除できる。その結果、分類の信頼性を高めることができる。
さらに好ましくは、機械学習手段は、文書集合選択手段により選択された文書集合に含まれる文書の各々に対し、当該文書中におけるある単語の位置の前後の所定範囲に存在する単語列から、当該文書中におけるある単語の文脈の特徴量を表す、所定の構成の学習用の特徴量ベクトルを算出するための特徴量ベクトル算出手段と、文書集合選択手段により選択された文書集合に含まれる文書の各々に対して特徴量ベクトル算出手段により算出された学習用の特徴量ベクトルと、当該文書の検索時に使用された意味候補とを組にして学習用データを作成し、当該学習用データを用いた機械学習により、学習用の特徴量ベクトルと同じ構成の分類用の特徴量ベクトルが与えられると、当該分類用の特徴量ベクトルに対応する文脈中におけるある単語の意味として最適なものを、意味候補集合中から選択する所定の分類器を自動的に作成するための手段とを含む。
単語の文脈を、その単語の前後の所定範囲に存在する単語列から作成した学習用の特徴量ベクトルにより表す。こうした学習用の特徴量ベクトルを用いた機械学習により分類器を自動的に作成できる。その結果、適切な意味候補を人手を介在させることなく自動的に選択し、入力された単語の多義性を解消できる多義解消装置を提供できる。
より好ましくは、意味候補選択手段は、文書収集手段によって組合せの各々について収集された文書の集合のうち、集合に含まれる文書の数が多い所定の個数の集合を選択し、それら文書の集合に対応する意味候補のみを意味候補として選択する処理を行なうための手段を含む。
入力された単語と、ある意味候補との組合せに対して収集された文書の集合に含まれる文書の数が多いということは、その組合せを構成する単語が共起する可能性が高いということである。従ってそうした意味候補は入力された単語に対する適切な意味候補である可能性が高い。また、この時点で意味候補の上限個数が設定されるので、以後の処理を安定した時間で完了できる。その結果、適切な意味候補を、人手を介在させることなく自動的に、信頼性高く、安定した時間で選択し、入力された単語の多義性を解消できる多義解消装置を提供できる。
意味候補選択手段は、文書収集手段によって組合せの各々について収集された文書の集合のうち、集合に含まれる文書の数が予め定められるしきい値より大きな集合を選択し、それら文書の集合に対応する意味候補のみを意味候補として選択する処理を行なうための手段を含んでもよい。
入力された単語と、ある意味候補との組合せに対して収集された文書の集合に含まれる文書の数があるしきい値より多いということは、その組合せを構成する単語が共起する可能性が高いということである。従ってそうした意味候補は入力された単語に対する適切な意味候補である可能性が高い。その結果、適切な意味候補を、人手を介在させることなく自動的に、かつ信頼性高く選択し、入力された単語の多義性を解消できる多義解消装置を提供できる。
文書収集手段は、ある単語と、意味候補集合中の意味候補との組合せの各々について、インターネット上に存在するウェブページからなる仮想的コーパスから、当該組合せを構成する語が共起するウェブページの集合を検索し収集するための検索手段を含む。
インターネット上のウェブページは、多数の人間により作成され維持されている。従ってそこで使用されている単語の用法は非常に数多い使用例をカバーしている。そのため、そうした文書をもとに分類器を作成すると、分類結果の偏りをなくし、信頼性を高めることができる。
好ましくは、収集するための手段は、ある単語と、意味候補集合中の意味候補との組合せの各々について、インターネット上に存在するウェブページからなる仮想的コーパスから、当該組合せを構成する語が共起するウェブページの集合を検索し、所定の定数を上限とした要素数の集合として収集するための手段を含む。
一つの集合について収集されるウェブページの個数に上限が設けられる。そのため、分類器の学習が過大な負荷となるおそれは小さい。その結果、適切な意味候補を、人手を介在させることなく自動的に、かつ信頼性高く安定して選択し、入力された単語の多義性を解消できる多義解消装置を提供できる。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの自然言語における多義解消装置として機能させるものである。
以下、本発明の実施の形態について図を参照して説明する。実施の形態は三つある。第1の実施の形態は、日本語の入力文に対する音声合成において、複数の仮名表記(読み)を持つ語の仮名表記を決定する装置に関する。第2の実施の形態は、英語のアクロニムに対し、英語の定義(フルスペル)を与える装置に関する。第3の実施の形態は、日本語から英語への翻訳において、日本語の単語に対し複数の英語の訳語が存在するときに、そのうちの一つを選択する装置に関する。すなわち、本発明において、ある単語の「意味」とは、日本語の場合に国語辞書にのっているような「意味」だけでなく、ある基準で見てその単語と等価であると評価できるような単語又は単語の集合又は文字列のことをいう。
なお、以下の実施の形態の説明に用いる図面において、同一の部品には同一の参照符号を付してある。それらの名称及び機能も同一である。従って、それらについての詳細な説明は繰返さない。なお、後述するように、各実施の形態は、コンピュータハードウェアと、その上で実行されるコンピュータプログラムとにより実現可能である。従って、以下に示すブロック図中の機能ブロックの一部については、それを実現するためのコンピュータプログラムのフローチャート形式でその機能及び構成を示す。
<第1の実施の形態>
[構成]
図1に、本発明の第1の実施の形態に係る音声合成システム30のブロック図を示す。図1を参照して、音声合成システム30は、音声合成の対象となる日本語の入力文を記憶するための入力文記憶部40と、入力文記憶部40から所定長を順次取出して記憶するための入力文バッファ42と、日本語の単語と、その仮名表記とを対応付けて記憶した複数の辞書からなる辞書群46と、入力文バッファ42に含まれる文を形態素解析して、漢字を含む単語があれば辞書群46を参照して仮名表記を検索し、仮名表記等の情報が付された形態素列を出力するための仮名変換部44とを含む。
既に述べたように、漢字を含む単語の中には、複数の仮名表記を持つものがあり得る。音声合成のためには、それら複数の仮名表記の中で適切なものを選択する必要がある。音声合成システム30は、そのために、仮名変換部44及びいわゆるインターネット52に接続され、仮名変換部44がある単語Wについて複数の仮名表記候補Rk(k=1〜K:Kは仮名表記候補の数)が存在することを検出したことに応答して、インターネット52上でその単語Wと仮名表記候補Rkとが共起するウェブページを、単語Wと仮名表記候補Rkの組合わせの各々について検索し、得られたウェブページのテキストを学習データとした機械学習による分類によって、単語Wにふさわしい仮名表記を決定して仮名変換部44に与えるための同形異音語解消処理部50とを含む。すなわち、このシステムでは、インターネット52上のウェブページの集合を、一つの仮想的なコーパスと見なして用例文書を収集している。
音声合成システム30はさらに、仮名変換部44が出力する、仮名表記付入力文を記憶するための仮名表記入力文記憶部54と、音声合成のための、仮名表記に対応する音声を格納した音声データベース48と、仮名表記入力文記憶部54から仮名表記付入力文を読出し、音声データベース48を参照して音声合成を行ない、アナログ音声信号を出力するための音声合成部56と、音声合成部56から出力されるアナログ音声信号を音声に変換するスピーカ58とを含む。
本実施の形態では、同形異音語解消処理部50がインターネット52から検索するウェブページのテキストのうち、「スニペット」と呼ばれる部分を機械学習に用いる。「スニペット」とは、インターネットのいわゆる検索エンジンによる検索結果において、検索されたウェブページの内容を説明するための短文のことをいう。多くの場合、スニペットは、検索のキーワードとされた単語を含む部分のテキストからなる。なお、同形異音語解消処理部50によるウェブページの検索には、独自の検索プログラムを用いてもよいが、本実施の形態では、既存の検索サービスサイトを利用し、単語Wと仮名表記候補RkとについてのAND検索をするクエリを検索サービスサイトに対して発行し、その結果を得ることで行なっている。なお、本実施の形態では、処理時間を安定させるため、検索件数の上限として、一回の検索について1000件という基準を設けている。
音声合成部56による音声合成の部分は、本発明とは直接には関係しないため、その詳細についての説明はここでは行なわない。
図2に、同形異音語解消処理部50の詳細なブロック図を示す。図2を参照して、同形異音語解消処理部50は、単語Wが与えられると、入力文バッファ42に記憶された入力文のうち、単語Wを中心とする所定長の窓に含まれる単語に基づいて行なう学習により、単語Wに関する所定の特徴ベクトルが与えられればその単語Wに対応する適切な仮名表記を出力するように学習可能な決定木82と、仮名変換部44から単語Wとその仮名表記候補Rkとの組合せ(W,Rk)を受け、それらが共起するウェブページのスニペットをインターネット52から収集し、その結果を用いて決定木82の学習を行なうための決定木作成部80と、仮名変換部44に接続され、仮名変換部44から、組合せ(W,Rk)中の単語Wと、入力文中における単語Wを中心とする所定範囲の単語列85とが与えられると、それらから決定木82による分類に適合した分類用特徴ベクトルを作成し、出力するための分類用特徴ベクトル作成部84と、分類用特徴ベクトル作成部84から出力される分類用特徴ベクトルを決定木82に与え、その結果として決定木82から得られる、分類結果である仮名表記を仮名変換部44に与えるための分類実行部86とを含む。
決定木作成部80は、単語Wとその仮名表記Rkとの組合せ(W,Rk)が与えられると、インターネット52上でそれらが共起するウェブページを検索するための検索部100と、検索部100により検索されたウェブページのスニペットの集合(以下単に「ウェブページの集合」と呼ぶ。)を組合せ(W,Rk)ごとに記憶するための検索結果記憶部102と、組合せ(W,Rk)のうちで、取得されたウェブページの件数の降順にウェブページの集合をソートし、件数が上位であるN件(Nは自然数)のみを選択することにより、決定木82のための学習データを作成するためのソート及び選択部104とを含む。本実施の形態では、このソート及び選択部104により選択された(W,Rk)に含まれるN個の仮名表記候補Rkが、仮名表記候補として残され、後の決定木の学習に用いられる。
この処理では、他の文書集合は棄却され、それら文書集合の検索に用いられた仮名表記候補も棄却される。これは、単語Wと共起する頻度の低い仮名表記候補は候補として不適であると一般的に考えられるためである。もっとも、応用によってはそのように低頻度の仮名表記候補であっても棄却しない方がよい場合もあり得る。
決定木作成部80はさらに、ソート及び選択部104により作成された学習データを記憶するための学習データ記憶部106と、検索対象となっている単語Wについて、学習データ記憶部106に記憶されている、その単語Wに関して検索された仮名表記候補Rkのウェブページの各々から、所定の学習用特徴ベクトルを作成するための学習用特徴ベクトル作成部108と、学習用特徴ベクトル作成部108の作成した特徴ベクトルを記憶するための特徴ベクトル記憶部110と、特徴ベクトル記憶部110に記憶された特徴ベクトルを用いて決定木82を学習させるための決定木学習部112とを含む。
図3は、図2に示す検索部100を実現するためのコンピュータプログラムのフローチャートである。図3を参照して、このプログラムは、ある単語Wについての仮名表記の候補Rk(k=1〜K)の各々について繰返されるステップ130〜134の3つのステップを含む。
ステップ130では、クエリ「単語W and 単語Rk」でウェブページを上限件数MAX=1000件で検索する要求をインターネット上の検索エンジンに送信する。
ステップ132では、その検索結果として、単語Wと仮名表記候補Rk(k=1〜N)とを含むスニペットの集合{Sn(W,Rk)}(n=1〜Lk,k=1〜K)を取得する。ただしここでLkは単語Wと仮名表記候補Rkとの組合せに対して得られた検索結果の数である。
ステップ134では、各集合Snから仮名表記候補Rkを削除することで、検索結果のスニペットの集合{(Tn(W),Rk)|n=1〜Lk}を作成する。
以上の3つのステップは、単語Wに対する仮名表記候補Rkの全てに対して繰返される。
図2に示す検索部100の機能はこのようなプログラムで実現される。
なお、ソート及び選択部104によって、検索件数が上位N個のスニペットの集合{(Tn(W),Rk)|n=1〜Lk}が抽出され、学習データ記憶部106に学習データとして記憶されるものとする。
図4に、図2に示す学習用特徴ベクトル作成部108の構成をブロック図形式で示す。図4を参照して、学習用特徴ベクトル作成部108は、学習データ記憶部106に記憶された学習データのスニペットの集合{(Tn(W),Rk)|n=1〜Lk}に含まれる各スニペットから、そのスニペット中に存在する単語Wをはさんで前後それぞれM個(合計2M個)の単語群(これら合計2M個の単語群を「窓」と呼ぶ。」)を抽出するための抽出部150と、学習データ記憶部106に記憶された学習データ106に出現する、単語W以外の語彙によって、決定木82(図2参照)の学習に用いる分類用特徴ベクトルの構成を決定するためのベクトル構成決定部152と、ベクトル構成決定部152により決定された特徴ベクトルの構成に従い、抽出部150によりスニペットごとに抽出された単語群に基づいて各スニペットの特徴ベクトルの要素を算出して、各スニペットの特徴ベクトルを作成し、特徴ベクトル記憶部110に記憶させるための要素算出部154とを含む。
図5に、単語Wを中心とする「窓」の構成を模式的に示す。図5を参照して、学習用のスニペット170の単語列のうち、単語Wを中心としてその前後に存在する単語列を、単語Wを含めて、「W−m,W−(m−1),W−(m−2),…,W−2,W−1,W、W,W,…,Wm−2,Wm−1,W」と書くことができる。単語Wを中心とし、その前のm個の単語からなる単語列174と、単語Wより後のm個の単語からなる単語列176とを含む単語列により、窓長2mの窓172が構成される。本実施の形態では、窓長を2Mとする。
ベクトル構成決定部152は、次のようにして特徴ベクトルの構成を決定する。すなわち、ベクトル構成決定部152は、学習データ記憶部106に存在する学習データ内に出現する単語の頻度を各単語について算出する。ベクトル構成決定部152はさらに、頻度が上位であるH個の単語のみを選択する。ベクトル構成決定部152はさらに、特徴ベクトルの次元をH次元とし、1番目〜H番目の要素を、それぞれ頻度が1位〜H位の単語に対応付ける。これにより特徴ベクトルの構成が決定される。この特徴ベクトルの要素数はH個である。各要素は0又は1の値をとる。各要素は、その要素に対応する単語がスニペット中の単語Wを中心とする窓長2Mの窓内に出現すると1の値となり、出現しないと0の値となる。
従って、ある学習用のスニペットTiについて要素算出部154が行なう処理は次のような処理である。すなわち、要素算出部154は、このスニペットTiに対応するH次元の特徴ベクトルの各要素について、対応する単語がスニペットTi中の、単語Wを中心とする窓長2Mの窓の中に出現するか否かを調べる。その要素の値は、その単語が出現すれば1、出現しなければ0となる。この処理をH個の要素の全てについて行なうことにより、スニペットTiの特徴ベクトルViが算出される。この特徴ベクトルViと、その特徴ベクトルが得られた組合せ(W,Rk)の仮名表記候補Rkとを互いに関連付けて(特徴ベクトルに対する正解が仮名表記候補Rkであるとして)決定木82の学習に用いる。
図2に示す分類用特徴ベクトル作成部84が行なう分類用の特徴ベクトルの作成も、基本的にはこれと同様である。すなわち、分類用特徴ベクトル作成部84は、学習用特徴ベクトル作成部108のベクトル構成決定部152(図4参照)から、特徴ベクトルの各要素に対応する単語に関する情報を受け、処理対象となる単語Wについて、その単語Wを中心とする窓長2Mの窓内に所定の単語が出現するか否かによって、単語Wに対する分類用の特徴ベクトルを作成する。すなわち、この特徴ベクトルは、学習用特徴ベクトル作成部108によって作成される特徴ベクトルと全く同じ構成となる。
決定木学習部112は、機械学習によって決定木82の学習を行なう。この学習方式については機械学習の分野で慣用されている事項であるので、ここではその詳細な説明は行なわない。
図6に、本実施の形態に係る要素算出部154により作成される決定木の一例である、「佐原」という単語に関する決定木200を示す。図6を参照して、この決定木は、4つの中間のノード210,212,214及び216と、5つの終端のノード230,232,234,236及び238を含み、各ノード210,212,214及び216では、それぞれ窓内の単語が特定の条件を満たすか否かという質問がなされる。
ノード210の質問は、単語「佐原」を中心とする窓長2Mの窓内に、キーワード「千葉県」があるか、というものである。もしあればノード230に進み、「佐原」に対応する仮名表記として「さわら」が選択される。もしなければノード212に進む。なお、図6においては、「千葉県」のような具体的な単語について、窓内にあるか否かを聞いているが、実際の処理では、単語「佐原」の特徴ベクトル内において、単語「千葉県」に対応する要素(ビット)の値が1か0かを調べることによってこの判定を行なっている。
ノード212の質問は、キーワード「神奈川県」があるか、というものである。もしあればノード232に進み、「佐原」に対応する仮名表記として「さはら」が選択される。もしなければノード214に進む。
ノード214の質問は、キーワード「成田」があるか、というものである。もしあればノード234に進み、「佐原」に対応する読みとして「さわら」234が選択される。もしなければノード216に進む。
ノード216の質問は、キーワード「横須賀」があるか、というものである。もしあればノード236に進み、「佐原」に対応する仮名表記として「さはら」が選択される。もしなければノード238に進み、「佐原」に対応する仮名表記として「さわら」が選択される。
本実施の形態では、基本的に各単語に対し、決定木200が作成される。ある単語に対応する特徴ベクトルが与えられると、その単語に対応する決定木を特徴ベクトルの各要素の値に従ってたどることにより、その単語の仮名表記が選択される。
[動作]
図1〜図6を参照して、上記した音声合成システム30は以下のように動作する。図1に示す入力文記憶部40には、音声合成の対象となる日本語の文が予め記憶される。そのうちの所定長部分が読出され、入力文バッファ42に記憶される。
仮名変換部44は、入力文バッファ42に記憶された文について辞書群46を参照して形態素解析を行なう。その結果、各単語の品詞、仮名表記(漢字の場合)、活用型、活用形などが決定される。もしも一つの単語について複数の仮名表記が得られた場合(すなわち同形異音語が存在する場合)、仮名変換部44は、その単語(単語Wとする。)と、仮名表記の組合せをそれぞれ同形異音語解消処理部50に与える。以下の説明では、構成のときに使用した表記を用いる。すなわち、ある単語Wに対して得られたK個の仮名表記候補を仮名表記候補R〜Rとする。
図2を参照して、検索部100は、単語Wと、仮名表記候補Rk(k=1〜K)との組合せ(W,Rk)が与えられると、(単語W and 単語Rk)をクエリとしてインターネット52上の検索エンジンに検索件数上限=1000件という条件で検索要求を送信する(図3のステップ130)。そして、この検索要求に応答して検索エンジンから得られたウェブページのスニペットの集合{Sn(W,Rk)}(n=1〜Lk)を取得する(図3のステップ132)。ここでLkはクエリ(単語W and 単語Rk)に対して得られた検索結果(ウェブページ)の数である。このスニペットの集合の各々から単語Rkを削除して得られた検索結果のスニペットの集合が検索結果記憶部102に記憶される(図3のステップ134)。これらスニペットの集合は、(単語W,仮名表記候補Rk)の組合せごとに得られる。スニペットの集合の各々の要素の数Lkの上限MAXは、本実施の形態では、上記したように1000である。
検索部100は、単語Wと仮名表記候補Rkとの組合せの各々に対し、上記した処理を実行する。すなわち、図3におけるステップ130〜134の処理を各組合せに対し実行する。その結果、検索結果記憶部102には、これら組合せの各々について、検索結果のスニペットの集合{Sn(W,Rk)}が記憶される。
ソート及び選択部104は、検索結果記憶部102に記憶されたスニペットの集合{Sn(W,Rk)}を、その要素の数Lkをキーに降順にソートする。ソート及び選択部104はさらに、ソート結果のうち、上位N個のスニペットの集合{(Tn(W),Rk)|n=1〜Lk}を選択して、それらスニペットが得られた仮名表記要素Rkと関連付けて学習データ記憶部106に学習データとして記憶させる。すなわち学習データ記憶部106には、スニペットの集合のうち、検索結果の多かったものから順番にN個が記憶される。
図4を参照して、学習用特徴ベクトル作成部108のベクトル構成決定部152は、学習データ記憶部106に学習データが記憶されると、これら学習データに出現する単語の頻度を各単語について算出する。ベクトル構成決定部152はさらに、出現頻度が上位H番目までの単語を選択する。特徴ベクトルの1番目〜H番目の要素を出現頻度1位〜H位の単語に対応付けることにより、特徴ベクトルの構成が決定される。ベクトル構成決定部152は、この特徴ベクトルの構成(すなわち特徴ベクトルの各要素に対応する単語に関する情報)を図2に示す分類用特徴ベクトル作成部84及び図4に示す要素算出部154に与える。
一方、抽出部150は、学習データ記憶部106に記憶されている各スニペットについて、単語Wを中心とする窓長2Mの窓を抽出して要素算出部154に与える。
要素算出部154は、ベクトル構成決定部152から与えられるベクトル構成に従い、抽出部150から与えられる窓に含まれる単語に基づいて、各スニペットの特徴ベクトルの各要素の値を算出する。その結果、各スニペットの特徴ベクトルが得られる。要素算出部154は、各スニペットを、そのスニペットが検索されたときの仮名表記候補Rkと関連付けて特徴ベクトル記憶部110に学習用データとして記憶させる。
図2を参照して、決定木学習部112は、特徴ベクトル記憶部110に記憶された特徴ベクトルと、それら特徴ベクトルに関連付けられた仮名表記候補とを用いた機械学習により、決定木82の学習を行なう。
以上の処理によって、決定木82は、ある単語Wを中心とする窓長2Mの窓中の単語列、すなわち単語Wの文脈、を表す特徴ベクトルが与えられると、その文脈における単語Wの仮名表記として最適なものを出力するように機能するようになる。
一方、仮名変換部44は、分類用特徴ベクトル作成部84に対し、同形異音語の解消を要求する単語Wと、入力文において単語Wを中心とする窓長2Mの窓に含まれる単語列85とを与える。分類用特徴ベクトル作成部84は、単語Wについて、仮名変換部44より与えられた、入力文中のその単語Wを中心とする窓長2Mの窓に含まれる単語列85と、図4に示すベクトル構成決定部152から与えられたベクトル構成とによって、要素算出部154と同様の処理により単語Wの特徴ベクトルを作成し、分類実行部86に与える。
分類実行部86は、この特徴ベクトルを決定木82に与える。決定木82は、単語Wを中心とする窓長Mから上記方法によって作成した特徴ベクトルが与えられると、単語Wの仮名表記として適切なものを出力するように学習済みである。分類実行部86は、この仮名表記を決定木82から得て、仮名変換部44に与える。
仮名変換部44は、このようにして同形異音語解消処理部50から得られた仮名表記を、問題となった単語Wに形態素分析の結果と同様にして付加する。仮名変換部44はさらに、形態素解析が終わり、品詞、仮名表記(漢字の場合)、活用型、活用形などの情報が付された形態素列を音声合成部56に与える。この場合、同形異音語については既に同形異音語解消処理部50により解消されているため、一つの単語には一つの仮名表記しか付されていない。
音声合成部56は、与えられた形態素列に基づき、形態素に付された仮名表記などを用いて音声データベース48から適切な音声波形を抽出し、波形接続処理によって合成音声波形データを作成し、さらにこの合成音声波形データをアナログ変換してスピーカ58に与える。スピーカ58はこの音声信号を音声に変換する。
以上のように音声合成システム30によれば、入力文記憶部40に記憶された入力文に同形異音語が含まれていても、同形異音語解消処理部50によって同形異音語が解消され、一つの仮名表記のみがその単語に割当てられる。インターネット52上のウェブページをいわば仮想的なコーパスとして用い、自動的にこの同形異音語の解消のための決定木の学習が行なわれる。人手で学習データを作成する必要がなく、同形異音語の解消のための手間を従来と比較してはるかに少なくできる。さらに、インターネット52上で検索されるウェブページは多数の人により作成されたものであるため、少数の人が学習データを作成する場合と比較して、学習データの偏りが少なく、そのカバーする範囲も広くなる。従って、同形異音語の解消の信頼性が従来より高くなるという効果がある。
[コンピュータによる実現]
上記した第1の実施の形態に係る音声合成システム30は、既に述べたようにコンピュータハードウエア及び当該コンピュータハードウエア上で実行されるコンピュータソフトウエアにより実現される。図7に音声合成システム30を実現するための一般的なコンピュータシステム250の外観を示し、図8にこのコンピュータシステム250の内部構成をブロック図形式で示す。
図7を参照して、コンピュータシステム250は、コンピュータ260と、いずれもコンピュータ260に接続されるモニタ262、キーボード266、マウス268、マイクロホン290及び一対のスピーカ58とを含む。コンピュータ260には、DVD(Digital Versatile Disc)の再生及び記録が可能なDVDドライブ270と、所定の規格に従った半導体メモリ記憶装置が装着可能なメモリポート272とが備えられている。コンピュータ260の内部構成については図8を参照して後述する。
図8を参照して、コンピュータ260は、図7に示すDVDドライブ270及びメモリポート272に加え、CPU(中央演算処理装置)276と、CPU276に接続されたバス286と、いずれもバス286に接続されたROM(読出専用メモリ)278、RAM(ランダムアクセスメモリ)280、ハードディスク274、ネットワークインタフェース296、及びサウンドボード288を含む。
DVDドライブ270には、DVD282が装着される。メモリポート272には半導体メモリ記憶装置284が装着される。CPU276は、バス286並びにDVDドライブ270及びメモリポート272をそれぞれ介して、DVD282及びメモリ284をアクセスできる。
キーボード266、マウス268、モニタ262はいずれも図示しないインタフェースを介してコンピュータ260のバス286に接続される。スピーカ58及びマイクロホン290は、サウンドボード288に接続される。このコンピュータシステム250において、CPU276で実行される音声合成プログラムは、最終的にはデジタル形式の音声波形データを生成する。サウンドボード288はその音声波形データをCPU276から受取ると、アナログ信号に変換してスピーカ58を介して音声を発生させる処理をする。
上記実施の形態における入力文記憶部40、辞書群46、仮名表記入力文記憶部54、音声データベース48、検索結果記憶部102、学習データ記憶部106、特徴ベクトル記憶部110等は、RAM280、ハードディスク274、DVDディスク282、半導体メモリ記憶装置284のいずれでも実現できる。実際には、格納するデータの容量、読出し、書込みに要求される速度などによって、最も効率のよい記憶装置が各記憶部を実現するために選択される。
上記した第1の実施の形態に係る音声合成システム30を実現するためのコンピュータプログラムは、単一のプログラムでもよいし、複数のプログラムを組合せたものでもよい。特に、上記した各部の機能のうち、図1に示す仮名変換部44において行なわれる形態素解析処理、音声合成部56において行なわれる音声合成処理、図2に示す検索部100が実行するスニペットの検索処理、ソート及び選択部104が実行するソート及び選択処理、決定木学習部112が実行する決定木82の学習処理などについては、既に広く流布しているプログラムをそのまま使用できる。もちろん、これらプログラムは汎用に作成されているため、適切な調整を行なうことは要求されるが、それらはこの技術分野における通常の知識を持つ者にとっては、目的に照らして容易に実現できる範囲に留まる。
さらに、学習用特徴ベクトル作成部108、分類用特徴ベクトル作成部84での処理についても、上記した説明に基づいて、当該技術分野の通常の知識を持つものであれば、仕様に応じて適宜実現することが可能である。
これらプログラムは、例えばDVDディスク282等のような記憶媒体に記憶され、又はインターネット52等のネットワークを通じて流通し、通常はハードディスク274等の不揮発外部記憶装置に記憶される。そして実行時にはハードディスク274からRAM280にコピーされ、CPU276内の図示しないプログラムカウンタにより指し示されるアドレスから読出された命令がCPU276により実行され、上記した所期の機能を実現する。コンピュータハードウェアそのものの動作形態については周知であるので、ここではこれ以上の詳細な説明は行なわない。
<第2の実施形態>
図9に、本発明の第2の実施の形態に係る、複数の定義を有する英語のアクロニムに対し、適切な定義を与える多義アクロニム解消システム330の構成をブロック図形式で示す。この多義アクロニム解消システム330は、アクロニムの近傍に、そのアクロニムの定義を与えている文書が多いこと、アクロニムの近傍に存在する単語は、その文書の分野によって何らかの傾向を持っていることを利用して、実施の形態1における同形異音語の解消と同じ原理によって、アクロニムに適切な定義を与えるものである。
図9を参照して、この多義アクロニム解消システム330は、アクロニムを含む可能性のある入力文を記憶するための入力文記憶部340と、入力文記憶部340に記憶された入力文の所定部分を読込むための入力文バッファ342と、アクロニム及びその定義のリストよりなるデータからなる辞書群346と、入力文バッファ342に格納された入力文を形態素解析し、定義が付されていないアクロニムを見出すと、辞書群346によって当該アクロニムの定義を決定し、入力文中の当該アクロニムに当該定義を付して入力文を出力するためのアクロニム解釈部344とを含む。
多義アクロニム解消システム330はさらに、アクロニム解釈部344から出力される、アクロニムに定義が付された入力文を記憶するためのアクロニム定義付入力文記憶部354と、アクロニム定義付入力文記憶部354に記憶された入力文の意味を理解するための文章理解装置356とを含む。
既に述べたように、アクロニムの中には複数の定義を持つものもあり得る。そうした場合に、アクロニム解釈部344がアクロニムに複数の定義を付して出力することはできない。そうすると、文章理解装置356における文章理解の障害となるからである。従って、入力文中で定義されていないアクロニムに対し、複数の定義が辞書群346から見出された場合、何らかの手段によりそれらの中の適切な一つを自動的に選択できるようにする必要がある。
こうした問題を解決するために、本実施の形態に係る多義アクロニム解消システム330は、アクロニム解釈部344及びインターネット52に接続され、アクロニム解釈部344から、アクロニムと、そのアクロニムに対して得られた複数の定義候補と、アクロニムの前後の所定の窓中に存在する単語列とが与えられると、インターネット52をコーパスとして用いた学習処理により、与えられた複数の定義候補のうち、与えられた単語列に対して最も適切と思われるものを選択し、アクロニム解釈部344に与える処理を行なうための多義アクロニム解消処理部350を含む。
多義アクロニム解消処理部350の構成の詳細についてはここでは述べないが、多義アクロニム解消処理部350の構成及び動作は第1の実施の形態における同形異音語解消処理部50と同様である。すなわち多義アクロニム解消処理部350は、以下の手順でアクロニムに対する適切な定義を決定する。
(1)アクロニムAと定義候補Dk(k=1〜K:Kは定義候補の数)が与えられると、定義候補Dkの各々について、アクロニムAと定義候補Dkとが共起するウェブページのスニペットに対する検索要求をインターネット52上の検索エンジンに与える。
(2)検索結果として、アクロニムAと定義候補Dkとを含むスニペットの集合{Sn(A,Dk)}(n=1〜Lk)(ただしLj(j=1〜k)はアクロニムAと定義候補Dkとの組合せに対して検索されたスニペットの数を表す。)を取得する。
(3)このスニペットの集合{Sn(A,Dk)}の各々から、定義候補Dkを削除することによって、検索結果のスニペットの集合{(Tn(A),Dk)|n=1〜Lk}を作成する。
(4)上記した3つの処理を、全ての定義候補Dkに対して繰返す。
(5)検索されたウェブページのスニペットの集合Snを、それらに含まれるウェブページの数(検索結果の数)の降順でソートし、さらにその内で上位N個のみを選択することで、N個の学習用のスニペットの集合{(Tn(A),Dk)|n=1〜Lk}が抽出され、学習データとして記憶される。
(6)この学習データを用い、図4に示す学習用特徴ベクトル作成部108と全く同様にして学習用の複数個の特徴ベクトルが作成される。特徴ベクトルの作成の仕方も第1の実施の形態の場合と全く同様である。特徴ベクトルの作成時の窓長も第1の実施の形態と同様、2Mと表すことにする。
(7)これらの特徴ベクトルと、それら特徴ベクトルを与えたスニペットが検索されたときの検索に用いられた定義候補とを関連付けて学習用のデータとする。
(8)この学習用のデータを用い、決定木の学習を行なう。この学習の結果、決定木は、入力文のうち、多義解消の対象となるアクロニムAを中心とする窓長2Mに含まれる単語により作成される特徴ベクトルが与えられると、そのアクロニムに対する適切な定義を出力するようになる。
(9)入力文の中の、多義解消の対象となるアクロニムAを中心とし、窓長2Mの窓から決定木のための特徴ベクトルを作成する。
(10)この特徴ベクトルを決定木に与えることにより、決定木からはアクロニムAの定義を一つだけ選択する出力が得られる。この出力を多義アクロニム解消処理部350からアクロニム解釈部344に与えることにより、アクロニム解釈部344は当該アクロニムに対し、多義アクロニム解消処理部350から与えられたただ一つの定義を付して、アクロニム定義付入力文記憶部354に出力できる。
<第3の実施の形態>
図10に、第3の実施の形態に係る日本語−英語の自動翻訳システム430のブロック図を示す。図10を参照して、この自動翻訳システム430は、日本語の入力文を記憶するための日本文記憶部440と、日本文記憶部440に記憶された日本文の所定量を記憶するための入力文バッファ442と、日本語から英語への1又は複数の辞書からなる辞書群446と、自動翻訳の前処理として、入力文バッファ442に記憶された日本文を形態素解析し、各単語について辞書群446を参照して英語の訳語を割当て、出力するための訳語決定部444と、このように前処理された訳語付日本文を記憶するための訳語付日本文記憶部454と、訳語付日本文記憶部454に記憶された訳語付日本文を、その訳語を使用しながら英語に翻訳する自動翻訳装置456とを含む。
しかし、既に述べたとおり、入力される一つの日本語単語に複数の英語の訳語候補が存在する場合があり得る。そうしたときにそれら複数の英語の訳語候補を日本語単語にそのまま付して訳語決定部444から出力すると、自動翻訳装置456における翻訳に支障が生ずる。そのために、何らかの手段でこれら複数の訳語候補の中から適切なものを選択する必要がある。
そのために、本実施の形態に係る自動翻訳システム430は、訳語決定部444及びインターネット52に接続され、訳語決定部444から、日本語の単語と、その単語に対して得られた複数の訳語候補と、入力文における当該日本語の単語の前後の所定の窓中に存在する単語列とが与えられると、インターネット52をコーパスとして用いた学習処理により、与えられた複数の訳語候補のうち、与えられた単語列に対して最も適切と思われるものを選択し、訳語決定部444に与える処理を行なうための多義訳語解消処理部450を含む。
多義訳語解消処理部450の構成の詳細についてはここでは述べないが、多義訳語解消処理部450における処理が、第1の実施の形態の同形異音語解消処理部50における処理、及び第2の実施の形態の多義アクロニム解消処理部350における処理と同一であり、従ってその構成も同形異音語解消処理部50の構成と同一であることが理解されるであろう。
訳語決定部444は、入力文バッファ442中の文を読出し、形態素解析して、各単語について辞書群446を参照することにより英語の訳語を割当て、訳語付日本文記憶部454に出力していく。複数の訳語候補が一つの日本語単語について出現した場合、訳語決定部444はその日本語単語と、複数の訳語候補とを多義訳語解消処理部450に引渡し、多義性の解消を依頼する。多義訳語解消処理部450は、第1の実施の形態における同形異音語解消処理部50と全く同じ動作によって決定木を作成し、入力文のうち、与えら得た日本語単語の前後の窓内の単語列を用いて特徴ベクトルを作成し、決定木に与えることにより適切な訳語候補を得て、訳語決定部444に返す。訳語決定部444は問題となった日本語単語に、多義訳語解消処理部450から与えられたただ一つの訳語を付し、訳語付日本文記憶部454に出力する。従って、自動翻訳装置456における自動翻訳処理に支障が生ずることはない。
以上、第1〜第3の実施の形態の説明から明らかなように、本発明に係る多義性の解消、又はあいまい性の解消は、自然言語処理の分野の広い範囲にわたり、容易に適用できる。しかも、多義性の解消を行なう部分の仕組みは基本的に同一でよい。もちろん、解消処理の細部において様々な設計事項はあり得るが、ある分野で有効な方式は、基本的にそのままの形で他の分野についても適用可能である。
例えば日本語と英語との間の翻訳のみならず、あらゆる言語の間の単語の翻訳に、言語の相違にかかわらず本発明に係る多義性又はあいまい性の解消をする装置を適用できる。第1の実施の形態における同形異音語の解消を行なう機構も、言語にかかわらずほとんどそのまま適用できる。もちろん、言語に特有の調整が必要な場合もあり得るが(例えば日本語における形態素解析)、その部分は自然言語処理での前提として必ず前もって行なわれているとすれば、多義性又はあいまい性の部分の仕組みは言語に係らず同一でよい。
従って、自然言語処理の分野の広い領域において、本発明を適用することができ、しかもある領域から別の領域への移植も極めて簡単に実現できる。
<可能な変形例>
上記した実施の形態では、適切な仮名表記、アクロニムの定義、及び訳語を決定するために、決定木を用いた。しかし本発明は決定木を用いるものには限定されず、インターネットから収集した学習データによって、対象となる単語又は単語列がおかれた文脈(環境)によって、目的物として複数のうちからどれを選択するかを機械学習により学習できるものであれば、どのような分類方法でも用いることができる。例えば、ナイーブベイズ、決定リスト、k−最近隣法、オンラインアルゴリズム、最大エントロピー法、サポートベクトルマシン、ブースティングなどを利用できる。
また、上記した実施の形態では学習データとしてウェブページのスニペットを収集したが、本発明がそのような実施の形態に限定されないことはもちろんである。例えばウェブページ全体を処理の対象としてもよい。また、例えば一つの単語Wと仮名表記Rkとの組み合わせに対して収集するウェブページの数の上限MAXを1000に限定しているが、この数が自由に変更できることはいうまでもない。また、このような限定を用いないことも可能である。
さらに、上記した実施の形態では、問題となる単語と、その単語と対となるべきいくつかの候補が与えられると、その時点でインターネットにアクセスし、決定木を作成している。しかし本発明はそのような実施の形態には限定されない。例えば、予め何らかのテスト文に対し、上記したような処理をすることにより、テスト文中に含まれる、何らかのあいまい性を持ついくつかの単語について、そのあいまい性を解消するための分類装置を予め準備しておいてもよい。そうした分類装置を多数の単語に対して一つずつ予め準備しておけば、その単語が与えられてから分類装置の学習を行なったりする必要はなく、直ちに適切な答えを与えることができる。もしもそれら複数の分類装置ではあいまい性が解消できない単語であれば、そのときに上記実施の形態で示したように改めて一つの分類装置を作成して適切な答えを得るようにすればよい。
また、上記した第1の実施の形態では、ソート及び選択部104により選択される仮名表記候補は、検索部100によりヒットしたウェブページの数の多い上位N件(Nは複数)であった。第2の実施の形態及び第3の実施の形態の場合も同様である。しかし本発明はそのような実施の形態には限定されない。例えば、ソート及び選択部104の処理でヒット数の多かった最上位の1件の仮名表記候補のみを単語Wの仮名表記として採用してもよい。この場合には、決定木は1:1の分類を行なうものとして機能する。もっとも、この方法では単語Wの文脈が全く考慮されないので、結果の信頼性は低く、あいまい性の解消とはいえない。
また、第1の実施の形態のソート及び選択部104の処理で、ヒットしたウェブページの数の多い上位N件ではなく、所定のしきい値以上のウェブページがヒットしたものを全て仮名表記候補として選択してもよい。又は、全ヒット数のうち、上位から各候補の割合を積算し、所定割合を超えるまでのものを、その数にかかわらず全て仮名表記候補として採用してもよい。
さらに、上記実施の形態では、一つの単語を単位としてその意味候補を決定している。しかし本発明はそのような実施の形態には限定されない。意味候補の集合を作成するための辞書の見出しとして、例えば複数の単語からなる句を設けておくことにより、その句の意味についても、複数の意味集合の中から適切なものを選択できるようになる。
そして、そのようにして得られた分類装置を随時蓄積しておくことにより、直ちにあいまい性を解消できる単語が増加することになり、好ましい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
本発明の第1の実施の形態に係る音声合成システム30のブロック図である。 図1に示す同形異音語解消処理部50のブロック図である。 図2の検索部100を実現するためのコンピュータプログラムの制御構造を示すフローチャートである。 図2の学習用特徴ベクトル作成部108のブロック図である。 「窓」の概念について説明するための図である。 決定木の一例を模式的に示す図である。 第1の実施の形態に係る音声合成システム30を実現するコンピュータシステム250の外観を示す図である。 図7に示すコンピュータシステム250の内部構成を示すブロック図である。 本発明の第2の実施の形態に係る多義アクロニム解消システム330のブロック図である。 本発明の第3の実施の形態に係る自動翻訳システム430のブロック図である。
符号の説明
30 音声合成システム
40,340 入力文記憶部
42,342,442 入力文バッファ
44 仮名変換部
46,346,446 辞書群
48 音声データベース
50 同形異音語解消処理部
52 インターネット
54 仮名表記入力文記憶部
56 音声合成部
58 スピーカ
80 決定木作成部
82 決定木
84 分類用特徴ベクトル作成部
86 分類実行部
100 検索部
102 検索結果記憶部
104 ソート及び選択部
106 学習データ記憶部
108 学習用特徴ベクトル作成部
110 特徴ベクトル記憶部
112 決定木学習部
344 アクロニム解釈部
350 多義アクロニム解消処理部
354 アクロニム定義付入力文記憶部
440 日本文記憶部
444 訳語決定部
450 多義訳語解消処理部
454 訳語付日本文記憶部
456 自動翻訳装置

Claims (8)

  1. 自然言語文からなる入力文において、ある単語と、前記入力文において前記ある単語が置かれた文脈と、前記ある単語の意味を表す可能性のある複数の意味候補を含む意味候補の集合とが与えられると、当該意味候補の集合の中から、前記文脈において前記ある単語の意味として最も適切なものを選択する、自然言語における多義解消装置であって、
    前記ある単語と、前記意味候補集合中の意味候補との組合せの各々について、所定のコーパスから、当該組合せを構成する語が共起する文書の集合を収集するための文書収集手段と、
    前記文書収集手段によって前記組合せの各々について収集された前記文書の集合を学習データとして用い、前記ある単語と、その単語の文書中の文脈とが与えられると、前記ある単語の当該文脈中での意味として最適な意味候補を前記意味候補集合中から選択する分類器を自動的に作成するための分類器作成手段と、
    前記入力文において、前記ある単語が置かれた文脈に基づいて、前記ある単語の意味として最適なものを、前記意味候補の集合の中から前記分類器を用いて選択するための分類実行手段とを含む、自然言語における多義解消装置。
  2. 前記分類器作成手段は、
    前記文書収集手段によって前記組合せの各々について収集された前記文書の集合のうち、集合に含まれる文書の数が多いものを所定の基準に従って選択し、それら文書の集合に対応する意味候補のみを前記意味候補の集合の要素として選択する処理を行なうための意味候補選択手段と、
    前記意味候補選択手段により選択された文書集合を学習データとして用い、前記ある単語と、その単語の文書中の文脈とが与えられると、前記ある単語の当該文脈中での意味として最適な意味候補を、前記意味候補集合中から選択する分類器を機械学習により自動的に作成するための機械学習手段とを含む、請求項1に記載の自然言語における多義解消装置。
  3. 前記機械学習手段は、
    前記文書集合選択手段により選択された文書集合に含まれる文書の各々に対し、当該文書中における前記ある単語の位置の前後の所定範囲に存在する単語列から、当該文書中における前記ある単語の文脈の特徴量を表す、所定の構成の学習用の特徴量ベクトルを算出するための特徴量ベクトル算出手段と、
    前記文書集合選択手段により選択された文書集合に含まれる文書の各々に対して前記特徴量ベクトル算出手段により算出された学習用の特徴量ベクトルと、当該文書の検索時に使用された意味候補とを組にして学習用データを作成し、当該学習用データを用いた機械学習により、前記学習用の特徴量ベクトルと同じ構成の分類用の特徴量ベクトルが与えられると、当該分類用の特徴量ベクトルに対応する文脈中における前記ある単語の意味として最適なものを、前記意味候補集合中から選択する所定の分類器を自動的に作成するための手段とを含む、請求項2に記載の自然言語における多義解消装置。
  4. 前記意味候補選択手段は、前記文書収集手段によって前記組合せの各々について収集された前記文書の集合のうち、集合に含まれる文書の数が多い所定の個数の集合を選択し、それら文書の集合に対応する意味候補のみを前記意味候補として選択する処理を行なうための手段を含む、請求項2又は請求項3に記載の、自然言語における多義解消装置。
  5. 前記意味候補選択手段は、前記文書収集手段によって前記組合せの各々について収集された前記文書の集合のうち、集合に含まれる文書の数が予め定められるしきい値より大きな集合を選択し、それら文書の集合に対応する意味候補のみを前記意味候補として選択する処理を行なうための手段を含む、請求項2又は請求項3に記載の、自然言語における多義解消装置。
  6. 前記文書収集手段は、前記ある単語と、前記意味候補集合中の意味候補との組合せの各々について、インターネット上に存在するウェブページからなる仮想的コーパスから、当該組合せを構成する語が共起するウェブページの集合を検索し収集するための検索手段を含む、請求項1〜請求項5のいずれかに記載の自然言語における多義解消装置。
  7. 前記収集するための手段は、前記ある単語と、前記意味候補集合中の意味候補との組合せの各々について、インターネット上に存在するウェブページからなる仮想的コーパスから、当該組合せを構成する語が共起するウェブページの集合を検索し、所定の定数を上限とした要素数の集合として収集するための手段を含む、請求項6に記載の自然言語における多義解消装置。
  8. コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項7のいずれかに記載の自然言語における多義解消装置として機能させる、コンピュータプログラム。
JP2006154497A 2006-06-02 2006-06-02 自然言語における多義解消装置及びコンピュータプログラム Expired - Fee Related JP5146979B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006154497A JP5146979B2 (ja) 2006-06-02 2006-06-02 自然言語における多義解消装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006154497A JP5146979B2 (ja) 2006-06-02 2006-06-02 自然言語における多義解消装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2007323475A true JP2007323475A (ja) 2007-12-13
JP5146979B2 JP5146979B2 (ja) 2013-02-20

Family

ID=38856213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006154497A Expired - Fee Related JP5146979B2 (ja) 2006-06-02 2006-06-02 自然言語における多義解消装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5146979B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012095971A1 (ja) * 2011-01-13 2012-07-19 三菱電機株式会社 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体
WO2013132614A1 (ja) * 2012-03-07 2013-09-12 三菱電機株式会社 語義推定装置、方法及びプログラム
JP5533853B2 (ja) * 2009-03-31 2014-06-25 日本電気株式会社 読み方判断装置、方法、プログラム、及び音声合成装置
JP2015122104A (ja) * 2011-09-30 2015-07-02 アップル インコーポレイテッド バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用
JP2016194822A (ja) * 2015-03-31 2016-11-17 株式会社エクシング サーバシステム及びそのプログラム、並びにエラーチェック方法
JP2018025874A (ja) * 2016-08-08 2018-02-15 富士ゼロックス株式会社 テキスト解析装置及びプログラム
JP2018041297A (ja) * 2016-09-08 2018-03-15 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
KR20190094078A (ko) * 2018-01-17 2019-08-12 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치
WO2019230065A1 (ja) * 2018-05-31 2019-12-05 ソニー株式会社 情報処理装置、情報処理方法、プログラム
JP2020052819A (ja) * 2018-09-27 2020-04-02 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム
CN111026844A (zh) * 2019-12-04 2020-04-17 河北数云堂智能科技有限公司 一种识别数字串读法的方法及装置
JP6976482B1 (ja) * 2020-09-02 2021-12-08 三菱電機株式会社 情報処理装置、生成方法、及び生成プログラム

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5533853B2 (ja) * 2009-03-31 2014-06-25 日本電気株式会社 読み方判断装置、方法、プログラム、及び音声合成装置
WO2012095971A1 (ja) * 2011-01-13 2012-07-19 三菱電機株式会社 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体
JP5460887B2 (ja) * 2011-01-13 2014-04-02 三菱電機株式会社 分類ルール生成装置及び分類ルール生成プログラム
US9323839B2 (en) 2011-01-13 2016-04-26 Mitsubishi Electric Corporation Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium
JP2015122104A (ja) * 2011-09-30 2015-07-02 アップル インコーポレイテッド バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用
WO2013132614A1 (ja) * 2012-03-07 2013-09-12 三菱電機株式会社 語義推定装置、方法及びプログラム
CN104160392A (zh) * 2012-03-07 2014-11-19 三菱电机株式会社 语义推测装置、方法以及程序
JP5734503B2 (ja) * 2012-03-07 2015-06-17 三菱電機株式会社 語義推定装置、方法及びプログラム
JP2016194822A (ja) * 2015-03-31 2016-11-17 株式会社エクシング サーバシステム及びそのプログラム、並びにエラーチェック方法
JP2018025874A (ja) * 2016-08-08 2018-02-15 富士ゼロックス株式会社 テキスト解析装置及びプログラム
JP2018041297A (ja) * 2016-09-08 2018-03-15 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
KR20190094078A (ko) * 2018-01-17 2019-08-12 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치
KR102117160B1 (ko) 2018-01-17 2020-06-01 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치
WO2019230065A1 (ja) * 2018-05-31 2019-12-05 ソニー株式会社 情報処理装置、情報処理方法、プログラム
JP2020052819A (ja) * 2018-09-27 2020-04-02 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム
JP7115187B2 (ja) 2018-09-27 2022-08-09 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム
CN111026844A (zh) * 2019-12-04 2020-04-17 河北数云堂智能科技有限公司 一种识别数字串读法的方法及装置
CN111026844B (zh) * 2019-12-04 2023-08-01 河北数云堂智能科技有限公司 一种识别数字串读法的方法及装置
JP6976482B1 (ja) * 2020-09-02 2021-12-08 三菱電機株式会社 情報処理装置、生成方法、及び生成プログラム
WO2022049668A1 (ja) * 2020-09-02 2022-03-10 三菱電機株式会社 情報処理装置、生成方法、及び生成プログラム

Also Published As

Publication number Publication date
JP5146979B2 (ja) 2013-02-20

Similar Documents

Publication Publication Date Title
JP5146979B2 (ja) 自然言語における多義解消装置及びコンピュータプログラム
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US20050021323A1 (en) Method and apparatus for identifying translations
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
Hiemstra et al. Disambiguation strategies for cross-language information retrieval
JP2005520251A (ja) 名前付きエンティティの翻訳
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
WO2008023470A1 (fr) Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document
JP2011118689A (ja) 検索方法及びシステム
KR100481598B1 (ko) 복합 형태소 분석 장치 및 방법
Hasegawa-Johnson et al. Grapheme-to-phoneme transduction for cross-language ASR
JPH08137898A (ja) 文書検索装置
Xiong et al. HANSpeller: a unified framework for Chinese spelling correction
JP3198932B2 (ja) 文書検索装置
Smadja et al. Translating collocations for use in bilingual lexicons
Etxeberria et al. Weighted finite-state transducers for normalization of historical texts
Tang et al. Automated Cross-lingual Link Discovery in Wikipedia.
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
KR20050064574A (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
Polshchykova et al. Synonymy in the terminology of computational linguistics
JP3326646B2 (ja) 機械翻訳システム用辞書・ルール学習装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121121

R150 Certificate of patent or registration of utility model

Ref document number: 5146979

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees