JP2004184951A

JP2004184951A - クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム

Info

Publication number: JP2004184951A
Application number: JP2002355284A
Authority: JP
Inventors: Takaaki Hasegawa; 隆明長谷川; Yoshihiko Hayashi; 林　　良彦
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-12-06
Filing date: 2002-12-06
Publication date: 2004-07-02
Anticipated expiration: 2022-12-06
Also published as: JP4008344B2

Abstract

【課題】音声認識の語彙に含まれていない未知語の固有名詞を認識する場合等に、どの種類の固有表現かを同定する。
【解決手段】形態素対応付け部３によって、音声メディアが変換された形態素の並びと、固有表現クラス付き形態素の並びは両者の全体の類似度が最も大きくなるように対応付けられ、前者の形態素の並びに、後者の形態素が有する固有表現クラスが付与される。言語モデル学習部４は、固有表現クラス付き形態素の並びから統計的に言語モデルを学習する。単語グラフ作成部５は、個数だけ尤もらしい順に出力される形態素の並びに対して、形態素をノードとし各形態素の開始位置および終了位置における可能な接続をリンクとする単語グラフを作成する。固有表現付与部６は、単語グラフに対して、言語モデルに基づいて、単語グラフの先頭位置から終端位置までの確率が最大となるように、固有表現付き形態素を選択し、固有表現付き形態素の並びを出力する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は電子テキスト以外のメディアの内容から固有表現を抽出する方法および装置に関する。
【０００２】
【従来の技術】
従来、電子テキストから固有表現を抽出する方法として、様々な方法が提案されていた（例えば、特許文献１や非特許文献１を参照）。
【０００３】
一方、電子テキスト以外のメディア、とりわけ、音声データからの固有表現抽出方法では、音声認識エンジン（例えば、非特許文献３参照）が出力する結果を入力テキストと見なしたテキストからの固有表現抽出と同様に、既存のテキストから学習しておいた言語モデルを用いて固有表現を抽出していた（例えば、非特許文献２参照）。
【０００４】
また、音声認識エンジンの内部で辞書に登録されていない固有名詞を抽出する試みもなされている（例えば、特許文献２参照）。
【０００５】
【特許文献１】
特開２００１−３１８７９２（請求項１）
【特許文献２】
特開２００１−２３６０８９（第５項、および第３図）
【非特許文献１】
ＮＹＭＢＬＥ：ＡＨｉｇｈ−ＰｅｒｆｏｒｍａｎｃｅＬｅａｒｎｉｎｇＮａｍｅ−ｆｉｎｄｅｒ，Ｄ．Ｂｉｋｅｌ他３名，ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＦｉｆｔｈＣｏｎｆｅｒｎｅｃｅｏｎＡｐｐｌｉｅｄＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，ｐｐ．１９４−２０１，１９９７．
【非特許文献２】
ＮａｍｅｄＥｎｔｉｔｙＥｘｔｒａｃｔｉｏｎｆｒｏｍＳｐｅｅｃｈ，Ｆ．Ｋｕｂａｌａ他３名，Ｄａｒｐａ９８，ｈｔｔｐ：／／ｗｗｗ．ｎｉｓｔ．ｇｏｖ／ｓｐｅｅｃｈ／ｐｕｂｌｉｃａｔｉｏｎｓ／ｄａｒｐａ９８／ｈｔｍｌ／ｌｍ５０／ｌｍ５０．ｈｔｍ
【非特許文献３】
ＮＴＴ技術ジャーナル１９９９年１２月号、特集「ここまできた音声認識・音声合成」
【０００６】
【発明が解決しようとする課題】
しかしながら、上記の従来の固有表現抽出方法では、音声認識エンジンが用いる辞書の語彙数を抑えるために、低頻度の固有名詞は登録されず、未知語は根本的に認識できないという問題があった。さらに、音声認識結果は本質的に誤りを含むので、誤りを考慮していないテキストに基づく言語モデルを用いて、固有表現の発声区間を認識するのは極めて難しい。また、固有名詞の認識が仮にもできたとしても、それが人名なのか地名なのかという識別は、大規模な固有表現タグ付けテキストから生成された言語モデルを用いない限り困難であり、大規模な固有表現タグ付きテキストを準備するのは非常にコストがかかるという問題もある。
【０００７】
本発明の目的は、音声データと対応する固有表現タグ付きテキストを用いて誤りを含む言語モデルを生成するクラス同定モデル生成方法、装置、およびプログラムを提供することにある。
【０００８】
本発明の他の目的は、低頻度なため音声認識の語彙に含まれていない未知語の固有名詞を認識する場合や認識誤りを含む場合でも、固有表現の発声区間を適切に認識し、どの種類の固有表現かを同定することが可能なクラス同定方法、装置、プログラムを提供することにある。
【０００９】
【課題を解決するための手段】
本発明のクラス同定モデル生成装置は、
単語表記と読みの情報が格納されている認識語彙データベースと、
単語情報が格納されている形態素辞書と、
電子テキスト以外のメディアから内容を認識して電子テキストに変換する際に、認識語彙データベースに基いて、形態素の候補の並びを、指定した個数だけ尤もらしい順に出力するメディア変換手段と、
電子テキスト以外のメディアに含まれる内容に対応する固有表現タグ付きテキストを解析して、形態素辞書に基づいて形態素に分割し、固有表現タグに対応する固有表現クラスを固有表現タグに含まれるすべての形態素に付与し、固有表現クラス付き形態素の並びを出力するタグ付きテキスト解析手段と、
認識候補の形態素の並びと固有表現クラス付き形態素の並びの両者を両者の形態素が有する情報に基づいて類似度が最大となるように対応付けて、前者の形態素に後者の形態素の有する固有表現クラスを付与する形態素対応付け手段と、
固有表現クラス付き形態素の並びから、統計的に言語モデルを学習する言語モデル学習手段とを有する。
【００１０】
また、本発明のクラス同定装置は、
単語表記と読みの情報が格納されている認識語彙データベースと、
指定した個数だけの尤もらしい順に並んだ形態素の並びから、各形態素をノードとし、各形態素の開始位置と終了位置において接続可能な形態素間の関係をリンクとする単語グラフを作成する単語グラフ作成手段と、
単語グラフの各形態素について、すべての固有表現クラス付き形態素の候補を設定し、言語モデルに基づいた、単語グラフの始端から終端までの全体の確率が最大となるようにすべての固有表現クラス付き形態素を決定し、固有表現クラス付き形態素の並びを出力する固有表現付与手段とを有する。
【００１１】
入力された音声データは、メディア変換手段によって、例えば開始位置と終了位置および信頼度スコア付きの形態素の並びに変換される。入力された音声データに対応する固有表現タグ付きテキストは、タグ付きテキスト解析手段によって固有表現クラスを有する形態素の並びに変換される。形態素対応付け手段によって、両者の形態素の並びはそれぞれ比較され、各形態素ごとの類似度を計算し、例えば対応がずれる場合には減点し、全体の類似度が最も大きくなるように対応付けられた後、信頼度スコア付き形態素の並びに、対応する固有表現クラス付き形態素が有する固有表現クラスが付与されると同時に、例えば信頼度スコアや形態素情報が指定された条件を満たす場合には形態素情報が置換され出力される。言語モデル学習手段は、形態素対応付け手段により出力された固有表現クラス付き形態素の並びから統計的に言語モデルを学習する。単語グラフ作成手段は、新たに入力される音声データがメディア変換手段により指定された個数だけ尤もらしい順に出力される開始位置、終了位置および信頼度スコア付きの形態素の並びに対して、形態素をノードとし各形態素の開始位置および終了位置における可能な接続をリンクとする単語グラフを作成する。固有表現付与手段は、単語グラフ作成手段により作成された単語グラフに対して、言語モデル学習手段により学習された言語モデルに基づいて、単語グラフの先頭位置から終端位置までの確率が最大となるように、固有表現付き形態素を選択し、固有表現付き形態素の並びを出力する。
【００１２】
本発明は、音声データから固有表現を抽出する際に、対応するテキストの固有表現クラスを用いて、誤りを含む音声認識結果に固有表現クラスを付与して、固有表現クラスを有する形態素の並びから言語モデルを生成することにより、新たに入力される音声データからのロバストな固有表現抽出を実現する。
【００１３】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【００１４】
図１は本発明の一実施形態の固有表現抽出装置の構成図である。
【００１５】
本実施形態の固有表現抽出装置は、メディア変換部１とタグ付きテキスト解析部２と形態素対応付け部３と言語モデル学習部４と認識語彙ＤＢ８と形態素辞書９と言語モデルデータベース１０を含む固有表現抽出モデル生成装置と、メディア変換部１と単語グラフ作成部５と固有表現付与部６と認識語彙ＤＢ８と言語モデルデータベース１０を含む固有表現抽出装置と、制御部７からなる。
【００１６】
認識語彙ＤＢ８は単語表記（表記、仮名、読み、品詞、標準形）と単語ＩＤと読みの情報が格納されている。同類の単語をまとめて扱うために、クラスＩＤとクラス内ｕｎｉｇｒａｍ確率が単語表記の後ろに格納される。音声認識の結果、読みの情報に基づいて、単語表記が出力される。
【００１７】
形態素辞書９は単語情報（表記、品詞、仮名、接続コストなど）が格納されている。
【００１８】
メディア変換部１は、音声データを入力し、認識語彙ＤＢ８に基づいて、テキストとして表現される形態素の並び（形態素列）を出力する。すなわち、予め学習してある音響モデルと言語モデルに基づいて、入力された音声データに対しておこなわれる確率計算により、認識語彙ＤＢ８に存在する単語表記を出力する。形態素には、表記、読み、品詞、開始時刻、終了時刻、音響スコア、言語スコア、信頼度スコアの各情報が付随する。ここで、「開始時刻」「終了時刻」は単語１語あたりの開始時刻と終了時刻で、認識処理対象としている音声データの起点を０としてカウントされる。「音響スコア」は既存の音声から学習された音響モデルから得られる確率に基づくスコア、「言語スコア」は既存のテキストから学習された言語モデルから得られる確率に基づくスコア、「信頼度スコア」は音響スコアと言語スコアを所定の計算式で計算したスコアである。
【００１９】
タグ付きテキスト解析部２は、入力された音声データと対応したテキストで、固有表現に該当する部分にいずれかひとつの種類の固有表現のタグが付けられている固有表現タグ付きテキストを解析し、形態素辞書９に基づいて分割する。テキストは形態素に分割され、固有表現のタグが付いていた単独の形態素あるいは複数の連続する形態素に該当の固有表現クラスを付ける。例えば、固有表現タグの種類は、人名、地名、組織名、人工物名、日付表現、時間表現、金額表現、割合表現としている。固有表現クラスは、固有表現タグの種類を踏襲するが、タグが付いていない部分にもその他として付与されるものとしている。
【００２０】
形態素対応付け部３は、メディア変換部１によって得られた音声側の形態素の並び（最尤の認識候補の形態素列）とタグ付きテキスト解析部２で得られたテキスト側の形態素の並び（固有表現クラス付き形態素列）を比較して、各形態素同士について形態素情報に基づいて類似度を計算し、末尾の形態素までの累積した類似度（類似度の総和）が最大となるように形態素を対応付ける。すなわち、２つの形態素について標記が一致するかどうか（一致すれば１、しなければ０）、仮名がどの程度かさなっているか（１文字単位でカウントし、短い方の仮名の長さで正規化）、品詞は一致するかどうか（自立語のみ対象にして、一致すれば１、しなければ０、どちらかが自立語以外は０）を調べ、これらの重み付き和を計算する。このとき、形態素の対応が１対１からずれる（１対ｎまたはｎ対１になる）場合には、指定された値を累積した類似度から減点する。対応付けの結果、テキスト側の形態素に対応するすべての音声側の形態素に、テキスト側の形態素の有する固有表現クラスを付与する。付与される固有表現クラスは、テキスト側の形態素の有する固有表現クラスと同一であってもよいし、これに関連する予め対応付けられた別の固有表現クラスであってもよい。認識誤りの形態素にも固有表現クラスを付与する。さらに、このとき同時に音声側の形態素が有する情報、例えば信頼度スコアや品詞情報に基づいて、誤りと思われる形態素をある特別な記号に置換しておくこともできる。信頼度スコアは仮名の長さで正規化してもよい。
【００２１】
言語モデル学習部４は、形態素対応付け部３で得られた固有表現クラスを有する形態素の並び（形態素列）や、あるいはさらにテキスト側の固有表現付き形態素の並びを加えたものから、固有表現クラス付き単語ｂｉｇｒａｍとその頻度からなる言語モデルを統計的に学習し、結果を言語モデルデータベース１０に格納する。ここで、形態素列は認識候補に固有表現クラスを付与したものだけでなく、固有表現クラス付き形態素列を加えてもよい。
【００２２】
単語グラフ作成部５は、新たに入力される音声データからメディア変換部１によって得られる指定された個数の形態素の並びから、各形態素の有する開始位置と終了位置に基づいて形態素をノードとし、各位置における形態素の接続をリンクとする単語グラフを作成する。このとき、信頼度スコアに対する閾値を予め設定しておき、音声認識で得られる形態素の信頼度スコアがこの閾値に達しないとき、あるいは、音声認識で得られる形態素の品詞が予め指定しておいた特定のものであれば、あるいはこれらを同時に満たす場合に、別の形態素に置換変形して単語グラフを作成してもよい。
【００２３】
固有表現付与部６は、単語グラフ作成部５から得られた単語グラフに対して、各形態素が信頼度スコアや形態素情報の条件の元で別の形態素に置換変形した場合を含めて、言語モデル学習部４により学習された言語モデルに基づいて、あらゆるすべての固有表現クラスを持つとしたときの単語ｂｉｇｒａｍの対数確率を単語グラフの先頭から末尾の全体に対して計算して、最も大きい対数確率となるような固有表現クラス付き形態素を各位置において選択することにより、各形態素に固有表現クラスを付与する。
【００２４】
制御部７は、学習時にはメディア変換部１とタグ付きテキスト解析部２と形態素対応付け部３と言語モデル学習部４を駆動し、実行時にはメディア変換部１と単語グラフ作成部５と固有表現付与部６を駆動する。
【００２５】
なお、メディア変換部１の出力結果やタグ付きテキスト解析部２の出力結果は記憶装置（不図示）に記憶される。
【００２６】
図２は本実施形態の、学習時における言語モデル作成までの処理を示す流れ図である。メディア変換部１は、例えば、音声データと発話内容が一致するテキストが文の単位で対応している場合には、文単位で音声データを入力し（ステップ１０１）、大語彙連続音声認識により最も尤度の高い候補１つを抽出する（ステップ１０２）。このとき、大語彙連続音声認識において予め設定している閾値よりも長いポーズ区間を検出した場合には、音声認識処理の単位区間を分割して形態素の並びを出力する。閾値よりも長いポーズがあるならば、ポーズは読点に置換してポーズ区間の前後の区間の形態素の並びを接続して一つの文とする（ステップ１０３，１０４）。一方、タグ付きテキスト解析部２は、音声データと対応する固有表現タグ付きテキストを入力し（ステップ１０５）、テキストを形態素に分割した上で固有表現タグに含まれる形態素には固有表現タグに対応する固有表現クラスを付与し、固有表現タグに含まれない形態素には「その他」などの特定の固有表現クラスを付与し、固有表現クラス付きの形態素の並びに変換する（ステップ１０６）。形態素対応付け部３は、文単位の範囲において、音声側と対応するテキスト側の形態素の並びに対して、それぞれの文頭から文末までの各形態素について対応付けることが可能なすべての経路のうち最適な経路を計算することにより対応付け（ステップ１０７）、テキスト側の形態素に対応付けられた音声側の各形態素にテキスト側の形態素の持つ固有表現クラスを付与する（ステップ１０８）。対応付けられた音声側の形態素とテキスト側の形態素の表記同士が一致しない場合には、付与する固有表現クラスとして予め対応付けられた別の固有表現クラスを付与してもよい。
【００２７】
対応付けの際には、例えば、Ｎ番目の音声側の形態素とＭ番目のテキスト側の形態素が対応する場合には、そこに至るまでの３つの経路、すなわちＮ−１番目の音声側の形態素とＭ−１番目のテキスト側の形態素が対応する場合と、Ｎ−１番目の音声側の形態素とＭ番目のテキスト側の形態素が対応する場合と、Ｎ番目の音声側の形態素とＭ−１番目のテキスト側の形態素が対応する場合がある。１番目の経路の場合には、Ｎ番目の音声側の形態素とＭ番目のテキスト側の形態素について表記の一致や読みの重なり度合いに基づいて類似度を計算し、それまでの累積された類似度に新たに計算された類似度を累積する。２番目の経路の場合は、Ｎ−１番目の音声側の形態素とＭ番目のテキスト側の形態素までの累積した類似度から予め指定された値を減点する。３番目の経路の場合は、Ｎ−１番目の音声側の形態素とＭ番目のテキスト側の形態素の経路までの累積した類似度から予め指定された値を減点する。３つの経路のうち最大の累積の類似度を持つ経路をそこまでの形態素の経路として保持し、以上を文末まで繰り返すことにより文頭から文末までの累積の類似度が最大となる経路を求める動的計画法の考え方に基づいて、最終的に両者の文末の形態素までの最適な経路を求める。
【００２８】
また、形態素の信頼度スコアや形態素情報がある条件を満たす場合には、形態素を別の形態素に置換することもできる（ステップ１０９，１１０）。例えば、信頼度スコアが予め設定されている閾値より小さい場合や、形態素に付与された固有表現クラスが特定のものである場合には、別の形態素として表記、読み、品詞すべてを例えば特定の記号「ε」に置換する。最後に、言語モデル学習部４は、音声認識結果に対して固有表現クラスが付与された形態素の並びやそれに加えて対応するテキストにおける固有表現クラス付き形態素の並びから固有表現クラス付き単語ｂｉｇｒａｍとその出現頻度からなる言語モデルを統計的に学習し、学習結果を言語モデルデータベース１０に格納する（ステップ１１１）。
【００２９】
図３は本実施形態のうち、実行時における固有表現付与の処理を示す流れ図である。メディア変換部１は音声データが入力されると（ステップ２０１）、大語彙連続音声認識を行い予め指定した個数の形態素の並びの候補を出力する（ステップ２０２）。始端と終端を含めて隣接する形態素の時刻が連続でない、つまりある形態素の終了時刻と次の形態素の開始時刻が一致しない場合は、連続でない時間帯、つまりある形態素の終了時刻を開始時刻とし、次の形態素の開始時刻を終了時刻とする時刻情報を付加した読点等の形態素情報を挿入する（ステップ２０３，２０４）。また、信頼度スコアや形態素情報がある条件を満たす場合、形態素を元の形態素情報を保持して別の形態素に置換変形する（ステップ２０５，２０６）。例えば、信頼度スコアが予め設定されている閾値より小さい場合に、表記、読み、品詞の先頭にそれぞれ「ε；」を付与する。単語グラフ作成部５は複数候補の形態素の並びから、各形態素が有する時刻情報に基づいて単語グラフを作成する（ステップ２０７）。単語グラフは、各ノードが時刻情報を持つ形態素であり、ノード間のリンクはある時刻において形態素が隣接する形態素と接続可能であることを示す。単語グラフの時刻を先頭から進めていき、単語グラフの各時刻で終わる形態素候補が存在する限り（ステップ２０８）、後続の１形態素について想定されるすべての固有表現クラスが付与された場合を仮定して（ステップ２０９）、すでに学習された言語モデル、例えば固有表現付き単語ｂｉｇｒａｍの出現頻度に基づいて各固有表現クラス付きの形態素が接続した場合の対数確率を計算する（ステップ２１０）。例えば、直前の固有表現クラスＮＣ_−１と直前の形態素ｗ_−１が与えられたときに現在の固有表現クラスＮＣが選択される確率Ｐ（ＮＣ｜ＮＣ_−１，ｗ_−１）と現在と直前の固有表現クラスが与えられたときに、現在の固有表現クラスの中で最初の単語ｗ_{ｆｉｒｓｔ}が生成される確率Ｐ（ｗ_{ｆｉｒｓｔ}｜ＮＣ_−１，ｗ_−１）と、直前の形態素と現在の固有表現クラスが与えられたときに２番目以降の形態素が生成される確率Ｐ（ｗ｜ｗ_−１，ＮＣ）を、下記の計算式により固有表現付き単語ｂｉｇｒａｍ頻度Ｃから計算する。文末まで以上のステップを繰り返す。
【００３０】
【数１】

このとき置換変形されている形態素は表記、読み、品詞とも「ε」を用いて対数確率を計算する。その時刻において、それまでの累積の対数確率が最大となる固有表現クラス付き形態素を選択し、経路を保持する（ステップ２１１）。ここで、「経路を保持する」のは、後の処理で文末から後ろ向きに局所的に最大の対数確率を持つ経路をたどれるようにしておくためである。単語グラフのノードの時刻を進めて（ステップ２１２）、同様の処理を行う。文末に達したら、今度は文末から最大の対数確率（最尤）を持った経路を選択することにより、選択された経路の各形態素について固有表現クラスを出力する（ステップ２１３）。置換変形されている形態素は、例えば表記、読み、品詞に含まれる「ε；」を削除するなどして元の形態素に復元して出力する。
【００３１】
図４に音声認識結果から得られる１位候補のスコア付き形態素の並びの例を示す。一例として、形態素情報は表記と読みと品詞からなり、スラッシュで区切っている。その後にスラッシュに続けて信頼度スコアが格納されている。ここでは、発声時刻は省略している。
【００３２】
図５に固有表現タグ付きテキストから得られる固有表現クラス付き形態素の並びの例を示す。
【００３３】
図６に両者の形態素の並びを対応付けて、音声側の形態素にテキスト側の固有表現クラスを付与した形態素の並びの例を示す。この例では、形態素の表記と読み１文字ずつの情報を用いて、類似度を計算している。この例では、テキスト側の８番目の形態素「オレンジ」は音声側の７番目の形態素「俺」と８番目の形態素「んち」と対応付けられる。この場合、音声側とテキスト側の形態素同士の表記が一致しないので、「オレンジ」の有する固有表現クラス「ＬＯＣＡＴＩＯＮ」に予め対応している「^＊ＬＯＣＡＴＩＯＮ」が「俺んち」に付与される。また、この例では、スコアが閾値０以下の形態素は表記、読み、品詞ともすべて「ε」という記号にして別の形態素に置換している。ここでは、信頼度スコアのところに固有表現クラスを代わりに格納している。言語モデルデータベース１０に、これらの形態素の並びから、例えば連続する２つの固有表現クラス付きの形態素の出現頻度を格納する。この例では、音声側の形態素の並びとテキスト側の形態素の並びは１つずつを対応させているが、対応させる形態素の並びの個数はこれに限るものではない。
【００３４】
図７に実行時の例を示す。「中谷主任研究員」という音声データを入力したときの信頼度スコアと発声時刻付きの形態素の並びである。簡単のため、形態素は表記のみとしている。括弧の中は信頼度スコアを表す。次に、これらの音声認識結果の発生時刻に基づいて、単語グラフを作成する。このとき、２位候補の「中」と「足り」の間が不連続なので、読点「、」の形態素情報を挿入してグラフを補完する。また、信頼度スコアが閾値０より低い形態素の表記に「ε；」を付加する。対数確率の計算時には、図８に示すように「ε」を用いるか、あるいは、「ε」を使った確率と元の形態素を使った確率を計算し、これらを比較して、最も大きいものを採用する。各時刻のノードにおいて、想定されるすべての固有表現クラス、例えばＰＥＲＳＯＮやＬＯＣＡＴＩＯＮやＯＲＧＡＮＩＺＡＴＩＯＮなどが付加された形態素が接続したとするときの対数確率を言語モデルに基づいて計算し、全体の対数確率の総和が最大となる固有表現クラスを各形態素において選択する。最終的に「ε；」が先頭にある形態素はこれを除いて、１５ｍｓから１３００ｍｓまでの「なかっ」「たり」の発声区間が人名として抽出される。なお、メディア変換部１では、手書き文字または映像中のテロップから文字認識を行い、認識された文字列に対して形態素解析を行い、形態素の並びを出力してもよい。
【００３５】
なお、本発明は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、ＣＤ−ＲＯＭ等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの（伝送媒体もしくは伝送波）、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【００３６】
【発明の効果】
以上説明したように本発明は、音声データに対応する固有表現タグ付きテキストを用いて、認識誤りが含まれる音声認識結果の形態素に固有表現クラスを付与して言語モデルを学習することにより、固有表現が含まれる音声データが入力され、音声認識の語彙にないためなどの理由により正しく認識できない固有表現に対して、固有表現の発声区間を適切に同定し、固有表現の種類を識別することができるので、音声データに固有表現に関するメタデータを付けるという目的に貢献する。
【図面の簡単な説明】
【図１】本発明の一実施形態の固有表現抽出装置のブロック図である。
【図２】図１の固有表現抽出装置において、学習時における言語モデル作成までの処理の流れを示す図である。
【図３】図１の固有表現抽出装置において、実行時における固有表現付与の処理の流れを示す図である。
【図４】音声認識結果から得られる形態素の例を示す図である。
【図５】固有表現タグ付きテキストから得られる形態素の例を示す図である。
【図６】図４と図５の形態素の例から得られる、音声側の形態素にテキスト側の固有表現クラスを付与した例を示す図である。
【図７】音声データから固有表現を抽出するまでのステップを示す図である。
【図８】変形済みの形態系の確率の計算方法の説明図である。
【符号の説明】
１メディア変換部
２タグ付きテキスト解析部
３形態素対応付け部
４言語モデル学習部
５単語グラフ作成部
６固有表現付与部
７制御部
８認識語彙ＤＢ
９形態素辞書
１０言語モデルデータベース
１０１〜１１１，２０１〜２１３ステップ

Claims

電子テキスト以外のメディアから内容を認識して電子テキストに変換する際に、単語表記と読みの情報が格納されている認識語彙データベースに基づいて、形態素の候補の並びを、指定した個数だけ尤もらしい順に出力するメディア変換ステップと、
電子テキスト以外のメディアに含まれる内容に対応する固有表現タグ付きテキストを解析して、単語情報が格納されている形態素辞書に基づいて形態素に分割し、固有表現タグに対応する固有表現クラスを固有表現タグに含まれるすべての形態素に付与し、固有表現クラス付き形態素の並びを出力するタグ付きテキスト解析ステップと、
認識候補の形態素の並びと前記固有表現クラス付き形態素の並びの両者を両者の形態素が有する情報に基づいて類似度が最大となるように対応付けて、前者の形態素に後者の形態素の有する固有表現クラスを付与する形態素対応付けステップと、
固有表現クラス付き形態素の並びから、統計的に言語モデルを学習する言語モデル学習ステップとを有するクラス同定モデル生成方法。
前記メディア変換ステップは、音声データから大語彙連続音声認識を行い、認識候補として信頼度スコアおよび開始時刻と終了時刻を持つ形態素の並びを出力する、請求項１に記載のクラス同定モデル生成方法。
前記メディア変換ステップは、手書き文字または映像中のテロップから文字認識を行い、認識された文字列に対して形態素解析を行い、形態素の並びを出力する、請求項１に記載のクラス同定モデル生成方法。
前記形態素対応付けステップは、メディア変換後の誤りを含む形態素の並びとタグ付きテキストの形態素の並びを比較する際に、各形態素同士についてそれぞれの形態素情報に基づいて類似度を計算し、先頭から類似度を累積し、対応する関係が１対１からずれる場合は累積した類似度から減点し、形態素の並びの終りまでの累積した類似度が最大となるように対応付けたのちに、テキストの形態素に対応するメディア変換後の誤りを含むすべての形態素にテキストの形態素が有する固有表現クラスあるいはこれに関連する固有表現クラスを付与する、請求項１に記載のクラス同定モデル生成方法。
前記形態素対応付けステップは、メディア変換後の誤りを含む形態素の信頼度スコアと形態素情報の少なくとも一方に基づいて、形態素を別の形態素に置換して固有表現クラス付き形態素の並びを出力する、請求項１に記載のクラス同定モデル生成方法。
単語表記と読みの情報が格納されている認識語彙データベースと、
単語情報が格納されている形態素辞書と、
電子テキスト以外のメディアから内容を認識して電子テキストに変換する際に、前記認識語彙データベースに基づいて、形態素の候補の並びを、指定した個数だけ尤もらしい順に出力するメディア変換手段と、
電子テキスト以外のメディアに含まれる内容に対応する固有表現タグ付きテキストを解析して、前記形態素辞書に基づいて形態素に分割し、固有表現タグに対応する固有表現クラスを固有表現タグに含まれるすべての形態素に付与し、固有表現クラス付き形態素の並びを出力するタグ付きテキスト解析手段と、
認識候補の形態素の並びと前記固有表現クラス付き形態素の並びの両者を両者の形態素が有する情報に基づいて類似度が最大となるように対応付けて、前者の形態素に後者の形態素の有する固有表現クラスを付与する形態素対応付け手段と、
固有表現クラス付き形態素の並びから、統計的に言語モデルを学習する言語モデル学習手段とを有するクラス同定モデル生成装置。
電子テキスト以外のメディアから内容を認識して電子テキストに変換する際に、単語表記と読みの情報が格納されている認識語彙データベースに基づいて、形態素の候補の並びを、指定した個数だけ尤もらしい順に出力するメディア変換ステップと、
指定した個数だけの尤もらしい順に並んだ形態素の並びから、各形態素をノードとし、各形態素の開始位置と終了位置において接続可能な形態素間の関係をリンクとする単語グラフを作成する単語グラフ作成ステップと、
単語グラフの各形態素について、すべての固有表現クラス付き形態素の候補を設定し、請求項１に記載の言語モデルに基づいた、単語グラフの始端から終端までの全体の確率が最大となるようにすべての固有表現クラス付き形態素を決定し、固有表現クラス付き形態素の並びを出力する固有表現付与ステップを有するクラス同定方法。
前記単語グラフ作成ステップは、形態素が持つ信頼度スコアと形態素情報の少なくとも一方に基づいて、形態素をその形態素情報を含めた別の形態素に置換変形した上で、メディア変換による複数の候補の形態素の並びから各形態素の開始位置および終了位置に基づいて単語グラフを作成する、請求項７に記載のクラス同定方法。
前記固有表現付与ステップは、形態素が置換変形されている場合は、各単語グラフのノードの確率を、置換変形された形態素情報を用いて言語モデルに基づいて計算し、固有表現付き形態素を決定し、格納されていた元の形態素情報に戻して出力する、請求項７に記載のクラス同定方法。
単語表記と読みの情報が格納されている認識語彙データベースと、
電子テキスト以外のメディアから内容を認識して電子テキストに変換する際に、前記認識語彙データベースに基づいて、形態素の候補の並びを、指定した個数だけ尤もらしい順に出力するメディア変換手段と、
指定した個数だけの尤もらしい順に並んだ形態素の並びから、各形態素をノードとし、各形態素の開始位置と終了位置において接続可能な形態素間の関係をリンクとする単語グラフを作成する単語グラフ作成手段と、
単語グラフの各形態素について、すべての固有表現クラス付き形態素の候補を設定し、請求項６に記載の言語モデルに基づいた、単語グラフの始端から終端までの全体の確率が最大となるようにすべての固有表現クラス付き形態素を決定し、固有表現クラス付き形態素の並びを出力する固有表現付与手段を有するクラス同定装置。
請求項１から５、請求項７から９のいずれかの方法をコンピュータに実行させるためのプログラム。