JP2004184951A - クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム - Google Patents
クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム Download PDFInfo
- Publication number
- JP2004184951A JP2004184951A JP2002355284A JP2002355284A JP2004184951A JP 2004184951 A JP2004184951 A JP 2004184951A JP 2002355284 A JP2002355284 A JP 2002355284A JP 2002355284 A JP2002355284 A JP 2002355284A JP 2004184951 A JP2004184951 A JP 2004184951A
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- morphemes
- named entity
- class
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】形態素対応付け部3によって、音声メディアが変換された形態素の並びと、固有表現クラス付き形態素の並びは両者の全体の類似度が最も大きくなるように対応付けられ、前者の形態素の並びに、後者の形態素が有する固有表現クラスが付与される。言語モデル学習部4は、固有表現クラス付き形態素の並びから統計的に言語モデルを学習する。単語グラフ作成部5は、個数だけ尤もらしい順に出力される形態素の並びに対して、形態素をノードとし各形態素の開始位置および終了位置における可能な接続をリンクとする単語グラフを作成する。固有表現付与部6は、単語グラフに対して、言語モデルに基づいて、単語グラフの先頭位置から終端位置までの確率が最大となるように、固有表現付き形態素を選択し、固有表現付き形態素の並びを出力する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は電子テキスト以外のメディアの内容から固有表現を抽出する方法および装置に関する。
【0002】
【従来の技術】
従来、電子テキストから固有表現を抽出する方法として、様々な方法が提案されていた(例えば、特許文献1や非特許文献1を参照)。
【0003】
一方、電子テキスト以外のメディア、とりわけ、音声データからの固有表現抽出方法では、音声認識エンジン(例えば、非特許文献3参照)が出力する結果を入力テキストと見なしたテキストからの固有表現抽出と同様に、既存のテキストから学習しておいた言語モデルを用いて固有表現を抽出していた(例えば、非特許文献2参照)。
【0004】
また、音声認識エンジンの内部で辞書に登録されていない固有名詞を抽出する試みもなされている(例えば、特許文献2参照)。
【0005】
【特許文献1】
特開2001−318792(請求項1)
【特許文献2】
特開2001−236089(第5項、および第3図)
【非特許文献1】
NYMBLE:A High−Performance Learning Name−finder, D. Bikel 他3名,In Proceedings of the Fifth Confernece on Applied Natural Language Processing, Association for Computational Linguistics, pp.194−201, 1997.
【非特許文献2】
Named Entity Extraction from Speech, F. Kubala 他3名,Darpa98, http://www.nist.gov/speech/publications/darpa98/html/lm50/lm50.htm
【非特許文献3】
NTT技術ジャーナル1999年12月号、特集「ここまできた音声認識・音声合成」
【0006】
【発明が解決しようとする課題】
しかしながら、上記の従来の固有表現抽出方法では、音声認識エンジンが用いる辞書の語彙数を抑えるために、低頻度の固有名詞は登録されず、未知語は根本的に認識できないという問題があった。さらに、音声認識結果は本質的に誤りを含むので、誤りを考慮していないテキストに基づく言語モデルを用いて、固有表現の発声区間を認識するのは極めて難しい。また、固有名詞の認識が仮にもできたとしても、それが人名なのか地名なのかという識別は、大規模な固有表現タグ付けテキストから生成された言語モデルを用いない限り困難であり、大規模な固有表現タグ付きテキストを準備するのは非常にコストがかかるという問題もある。
【0007】
本発明の目的は、音声データと対応する固有表現タグ付きテキストを用いて誤りを含む言語モデルを生成するクラス同定モデル生成方法、装置、およびプログラムを提供することにある。
【0008】
本発明の他の目的は、低頻度なため音声認識の語彙に含まれていない未知語の固有名詞を認識する場合や認識誤りを含む場合でも、固有表現の発声区間を適切に認識し、どの種類の固有表現かを同定することが可能なクラス同定方法、装置、プログラムを提供することにある。
【0009】
【課題を解決するための手段】
本発明のクラス同定モデル生成装置は、
単語表記と読みの情報が格納されている認識語彙データベースと、
単語情報が格納されている形態素辞書と、
電子テキスト以外のメディアから内容を認識して電子テキストに変換する際に、認識語彙データベースに基いて、形態素の候補の並びを、指定した個数だけ尤もらしい順に出力するメディア変換手段と、
電子テキスト以外のメディアに含まれる内容に対応する固有表現タグ付きテキストを解析して、形態素辞書に基づいて形態素に分割し、固有表現タグに対応する固有表現クラスを固有表現タグに含まれるすべての形態素に付与し、固有表現クラス付き形態素の並びを出力するタグ付きテキスト解析手段と、
認識候補の形態素の並びと固有表現クラス付き形態素の並びの両者を両者の形態素が有する情報に基づいて類似度が最大となるように対応付けて、前者の形態素に後者の形態素の有する固有表現クラスを付与する形態素対応付け手段と、
固有表現クラス付き形態素の並びから、統計的に言語モデルを学習する言語モデル学習手段とを有する。
【0010】
また、本発明のクラス同定装置は、
単語表記と読みの情報が格納されている認識語彙データベースと、
指定した個数だけの尤もらしい順に並んだ形態素の並びから、各形態素をノードとし、各形態素の開始位置と終了位置において接続可能な形態素間の関係をリンクとする単語グラフを作成する単語グラフ作成手段と、
単語グラフの各形態素について、すべての固有表現クラス付き形態素の候補を設定し、言語モデルに基づいた、単語グラフの始端から終端までの全体の確率が最大となるようにすべての固有表現クラス付き形態素を決定し、固有表現クラス付き形態素の並びを出力する固有表現付与手段とを有する。
【0011】
入力された音声データは、メディア変換手段によって、例えば開始位置と終了位置および信頼度スコア付きの形態素の並びに変換される。入力された音声データに対応する固有表現タグ付きテキストは、タグ付きテキスト解析手段によって固有表現クラスを有する形態素の並びに変換される。形態素対応付け手段によって、両者の形態素の並びはそれぞれ比較され、各形態素ごとの類似度を計算し、例えば対応がずれる場合には減点し、全体の類似度が最も大きくなるように対応付けられた後、信頼度スコア付き形態素の並びに、対応する固有表現クラス付き形態素が有する固有表現クラスが付与されると同時に、例えば信頼度スコアや形態素情報が指定された条件を満たす場合には形態素情報が置換され出力される。言語モデル学習手段は、形態素対応付け手段により出力された固有表現クラス付き形態素の並びから統計的に言語モデルを学習する。単語グラフ作成手段は、新たに入力される音声データがメディア変換手段により指定された個数だけ尤もらしい順に出力される開始位置、終了位置および信頼度スコア付きの形態素の並びに対して、形態素をノードとし各形態素の開始位置および終了位置における可能な接続をリンクとする単語グラフを作成する。固有表現付与手段は、単語グラフ作成手段により作成された単語グラフに対して、言語モデル学習手段により学習された言語モデルに基づいて、単語グラフの先頭位置から終端位置までの確率が最大となるように、固有表現付き形態素を選択し、固有表現付き形態素の並びを出力する。
【0012】
本発明は、音声データから固有表現を抽出する際に、対応するテキストの固有表現クラスを用いて、誤りを含む音声認識結果に固有表現クラスを付与して、固有表現クラスを有する形態素の並びから言語モデルを生成することにより、新たに入力される音声データからのロバストな固有表現抽出を実現する。
【0013】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0014】
図1は本発明の一実施形態の固有表現抽出装置の構成図である。
【0015】
本実施形態の固有表現抽出装置は、メディア変換部1とタグ付きテキスト解析部2と形態素対応付け部3と言語モデル学習部4と認識語彙DB8と形態素辞書9と言語モデルデータベース10を含む固有表現抽出モデル生成装置と、メディア変換部1と単語グラフ作成部5と固有表現付与部6と認識語彙DB8と言語モデルデータベース10を含む固有表現抽出装置と、制御部7からなる。
【0016】
認識語彙DB8は単語表記(表記、仮名、読み、品詞、標準形)と単語IDと読みの情報が格納されている。同類の単語をまとめて扱うために、クラスIDとクラス内unigram確率が単語表記の後ろに格納される。音声認識の結果、読みの情報に基づいて、単語表記が出力される。
【0017】
形態素辞書9は単語情報(表記、品詞、仮名、接続コストなど)が格納されている。
【0018】
メディア変換部1は、音声データを入力し、認識語彙DB8に基づいて、テキストとして表現される形態素の並び(形態素列)を出力する。すなわち、予め学習してある音響モデルと言語モデルに基づいて、入力された音声データに対しておこなわれる確率計算により、認識語彙DB8に存在する単語表記を出力する。形態素には、表記、読み、品詞、開始時刻、終了時刻、音響スコア、言語スコア、信頼度スコアの各情報が付随する。ここで、「開始時刻」「終了時刻」は単語1語あたりの開始時刻と終了時刻で、認識処理対象としている音声データの起点を0としてカウントされる。「音響スコア」は既存の音声から学習された音響モデルから得られる確率に基づくスコア、「言語スコア」は既存のテキストから学習された言語モデルから得られる確率に基づくスコア、「信頼度スコア」は音響スコアと言語スコアを所定の計算式で計算したスコアである。
【0019】
タグ付きテキスト解析部2は、入力された音声データと対応したテキストで、固有表現に該当する部分にいずれかひとつの種類の固有表現のタグが付けられている固有表現タグ付きテキストを解析し、形態素辞書9に基づいて分割する。テキストは形態素に分割され、固有表現のタグが付いていた単独の形態素あるいは複数の連続する形態素に該当の固有表現クラスを付ける。例えば、固有表現タグの種類は、人名、地名、組織名、人工物名、日付表現、時間表現、金額表現、割合表現としている。固有表現クラスは、固有表現タグの種類を踏襲するが、タグが付いていない部分にもその他として付与されるものとしている。
【0020】
形態素対応付け部3は、メディア変換部1によって得られた音声側の形態素の並び(最尤の認識候補の形態素列)とタグ付きテキスト解析部2で得られたテキスト側の形態素の並び(固有表現クラス付き形態素列)を比較して、各形態素同士について形態素情報に基づいて類似度を計算し、末尾の形態素までの累積した類似度(類似度の総和)が最大となるように形態素を対応付ける。すなわち、2つの形態素について標記が一致するかどうか(一致すれば1、しなければ0)、仮名がどの程度かさなっているか(1文字単位でカウントし、短い方の仮名の長さで正規化)、品詞は一致するかどうか(自立語のみ対象にして、一致すれば1、しなければ0、どちらかが自立語以外は0)を調べ、これらの重み付き和を計算する。このとき、形態素の対応が1対1からずれる(1対nまたはn対1になる)場合には、指定された値を累積した類似度から減点する。対応付けの結果、テキスト側の形態素に対応するすべての音声側の形態素に、テキスト側の形態素の有する固有表現クラスを付与する。付与される固有表現クラスは、テキスト側の形態素の有する固有表現クラスと同一であってもよいし、これに関連する予め対応付けられた別の固有表現クラスであってもよい。認識誤りの形態素にも固有表現クラスを付与する。さらに、このとき同時に音声側の形態素が有する情報、例えば信頼度スコアや品詞情報に基づいて、誤りと思われる形態素をある特別な記号に置換しておくこともできる。信頼度スコアは仮名の長さで正規化してもよい。
【0021】
言語モデル学習部4は、形態素対応付け部3で得られた固有表現クラスを有する形態素の並び(形態素列)や、あるいはさらにテキスト側の固有表現付き形態素の並びを加えたものから、固有表現クラス付き単語bigramとその頻度からなる言語モデルを統計的に学習し、結果を言語モデルデータベース10に格納する。ここで、形態素列は認識候補に固有表現クラスを付与したものだけでなく、固有表現クラス付き形態素列を加えてもよい。
【0022】
単語グラフ作成部5は、新たに入力される音声データからメディア変換部1によって得られる指定された個数の形態素の並びから、各形態素の有する開始位置と終了位置に基づいて形態素をノードとし、各位置における形態素の接続をリンクとする単語グラフを作成する。このとき、信頼度スコアに対する閾値を予め設定しておき、音声認識で得られる形態素の信頼度スコアがこの閾値に達しないとき、あるいは、音声認識で得られる形態素の品詞が予め指定しておいた特定のものであれば、あるいはこれらを同時に満たす場合に、別の形態素に置換変形して単語グラフを作成してもよい。
【0023】
固有表現付与部6は、単語グラフ作成部5から得られた単語グラフに対して、各形態素が信頼度スコアや形態素情報の条件の元で別の形態素に置換変形した場合を含めて、言語モデル学習部4により学習された言語モデルに基づいて、あらゆるすべての固有表現クラスを持つとしたときの単語bigramの対数確率を単語グラフの先頭から末尾の全体に対して計算して、最も大きい対数確率となるような固有表現クラス付き形態素を各位置において選択することにより、各形態素に固有表現クラスを付与する。
【0024】
制御部7は、学習時にはメディア変換部1とタグ付きテキスト解析部2と形態素対応付け部3と言語モデル学習部4を駆動し、実行時にはメディア変換部1と単語グラフ作成部5と固有表現付与部6を駆動する。
【0025】
なお、メディア変換部1の出力結果やタグ付きテキスト解析部2の出力結果は記憶装置(不図示)に記憶される。
【0026】
図2は本実施形態の、学習時における言語モデル作成までの処理を示す流れ図である。メディア変換部1は、例えば、音声データと発話内容が一致するテキストが文の単位で対応している場合には、文単位で音声データを入力し(ステップ101)、大語彙連続音声認識により最も尤度の高い候補1つを抽出する(ステップ102)。このとき、大語彙連続音声認識において予め設定している閾値よりも長いポーズ区間を検出した場合には、音声認識処理の単位区間を分割して形態素の並びを出力する。閾値よりも長いポーズがあるならば、ポーズは読点に置換してポーズ区間の前後の区間の形態素の並びを接続して一つの文とする(ステップ103,104)。一方、タグ付きテキスト解析部2は、音声データと対応する固有表現タグ付きテキストを入力し(ステップ105)、テキストを形態素に分割した上で固有表現タグに含まれる形態素には固有表現タグに対応する固有表現クラスを付与し、固有表現タグに含まれない形態素には「その他」などの特定の固有表現クラスを付与し、固有表現クラス付きの形態素の並びに変換する(ステップ106)。形態素対応付け部3は、文単位の範囲において、音声側と対応するテキスト側の形態素の並びに対して、それぞれの文頭から文末までの各形態素について対応付けることが可能なすべての経路のうち最適な経路を計算することにより対応付け(ステップ107)、テキスト側の形態素に対応付けられた音声側の各形態素にテキスト側の形態素の持つ固有表現クラスを付与する(ステップ108)。対応付けられた音声側の形態素とテキスト側の形態素の表記同士が一致しない場合には、付与する固有表現クラスとして予め対応付けられた別の固有表現クラスを付与してもよい。
【0027】
対応付けの際には、例えば、N番目の音声側の形態素とM番目のテキスト側の形態素が対応する場合には、そこに至るまでの3つの経路、すなわちN−1番目の音声側の形態素とM−1番目のテキスト側の形態素が対応する場合と、N−1番目の音声側の形態素とM番目のテキスト側の形態素が対応する場合と、N番目の音声側の形態素とM−1番目のテキスト側の形態素が対応する場合がある。1番目の経路の場合には、N番目の音声側の形態素とM番目のテキスト側の形態素について表記の一致や読みの重なり度合いに基づいて類似度を計算し、それまでの累積された類似度に新たに計算された類似度を累積する。2番目の経路の場合は、N−1番目の音声側の形態素とM番目のテキスト側の形態素までの累積した類似度から予め指定された値を減点する。3番目の経路の場合は、N−1番目の音声側の形態素とM番目のテキスト側の形態素の経路までの累積した類似度から予め指定された値を減点する。3つの経路のうち最大の累積の類似度を持つ経路をそこまでの形態素の経路として保持し、以上を文末まで繰り返すことにより文頭から文末までの累積の類似度が最大となる経路を求める動的計画法の考え方に基づいて、最終的に両者の文末の形態素までの最適な経路を求める。
【0028】
また、形態素の信頼度スコアや形態素情報がある条件を満たす場合には、形態素を別の形態素に置換することもできる(ステップ109,110)。例えば、信頼度スコアが予め設定されている閾値より小さい場合や、形態素に付与された固有表現クラスが特定のものである場合には、別の形態素として表記、読み、品詞すべてを例えば特定の記号「ε」に置換する。最後に、言語モデル学習部4は、音声認識結果に対して固有表現クラスが付与された形態素の並びやそれに加えて対応するテキストにおける固有表現クラス付き形態素の並びから固有表現クラス付き単語bigramとその出現頻度からなる言語モデルを統計的に学習し、学習結果を言語モデルデータベース10に格納する(ステップ111)。
【0029】
図3は本実施形態のうち、実行時における固有表現付与の処理を示す流れ図である。メディア変換部1は音声データが入力されると(ステップ201)、大語彙連続音声認識を行い予め指定した個数の形態素の並びの候補を出力する(ステップ202)。始端と終端を含めて隣接する形態素の時刻が連続でない、つまりある形態素の終了時刻と次の形態素の開始時刻が一致しない場合は、連続でない時間帯、つまりある形態素の終了時刻を開始時刻とし、次の形態素の開始時刻を終了時刻とする時刻情報を付加した読点等の形態素情報を挿入する(ステップ203,204)。また、信頼度スコアや形態素情報がある条件を満たす場合、形態素を元の形態素情報を保持して別の形態素に置換変形する(ステップ205,206)。例えば、信頼度スコアが予め設定されている閾値より小さい場合に、表記、読み、品詞の先頭にそれぞれ「ε;」を付与する。単語グラフ作成部5は複数候補の形態素の並びから、各形態素が有する時刻情報に基づいて単語グラフを作成する(ステップ207)。単語グラフは、各ノードが時刻情報を持つ形態素であり、ノード間のリンクはある時刻において形態素が隣接する形態素と接続可能であることを示す。単語グラフの時刻を先頭から進めていき、単語グラフの各時刻で終わる形態素候補が存在する限り(ステップ208)、後続の1形態素について想定されるすべての固有表現クラスが付与された場合を仮定して(ステップ209)、すでに学習された言語モデル、例えば固有表現付き単語bigramの出現頻度に基づいて各固有表現クラス付きの形態素が接続した場合の対数確率を計算する(ステップ210)。例えば、直前の固有表現クラスNC−1と直前の形態素w−1が与えられたときに現在の固有表現クラスNCが選択される確率P(NC|NC−1,w−1)と現在と直前の固有表現クラスが与えられたときに、現在の固有表現クラスの中で最初の単語wfirstが生成される確率P(wfirst|NC−1,w−1)と、直前の形態素と現在の固有表現クラスが与えられたときに2番目以降の形態素が生成される確率P(w|w−1,NC)を、下記の計算式により固有表現付き単語bigram頻度Cから計算する。文末まで以上のステップを繰り返す。
【0030】
【数1】
このとき置換変形されている形態素は表記、読み、品詞とも「ε」を用いて対数確率を計算する。その時刻において、それまでの累積の対数確率が最大となる固有表現クラス付き形態素を選択し、経路を保持する(ステップ211)。ここで、「経路を保持する」のは、後の処理で文末から後ろ向きに局所的に最大の対数確率を持つ経路をたどれるようにしておくためである。単語グラフのノードの時刻を進めて(ステップ212)、同様の処理を行う。文末に達したら、今度は文末から最大の対数確率(最尤)を持った経路を選択することにより、選択された経路の各形態素について固有表現クラスを出力する(ステップ213)。置換変形されている形態素は、例えば表記、読み、品詞に含まれる「ε;」を削除するなどして元の形態素に復元して出力する。
【0031】
図4に音声認識結果から得られる1位候補のスコア付き形態素の並びの例を示す。一例として、形態素情報は表記と読みと品詞からなり、スラッシュで区切っている。その後にスラッシュに続けて信頼度スコアが格納されている。ここでは、発声時刻は省略している。
【0032】
図5に固有表現タグ付きテキストから得られる固有表現クラス付き形態素の並びの例を示す。
【0033】
図6に両者の形態素の並びを対応付けて、音声側の形態素にテキスト側の固有表現クラスを付与した形態素の並びの例を示す。この例では、形態素の表記と読み1文字ずつの情報を用いて、類似度を計算している。この例では、テキスト側の8番目の形態素「オレンジ」は音声側の7番目の形態素「俺」と8番目の形態素「んち」と対応付けられる。この場合、音声側とテキスト側の形態素同士の表記が一致しないので、「オレンジ」の有する固有表現クラス「LOCATION」に予め対応している「*LOCATION」が「俺んち」に付与される。また、この例では、スコアが閾値0以下の形態素は表記、読み、品詞ともすべて「ε」という記号にして別の形態素に置換している。ここでは、信頼度スコアのところに固有表現クラスを代わりに格納している。言語モデルデータベース10に、これらの形態素の並びから、例えば連続する2つの固有表現クラス付きの形態素の出現頻度を格納する。この例では、音声側の形態素の並びとテキスト側の形態素の並びは1つずつを対応させているが、対応させる形態素の並びの個数はこれに限るものではない。
【0034】
図7に実行時の例を示す。「中谷主任研究員」という音声データを入力したときの信頼度スコアと発声時刻付きの形態素の並びである。簡単のため、形態素は表記のみとしている。括弧の中は信頼度スコアを表す。次に、これらの音声認識結果の発生時刻に基づいて、単語グラフを作成する。このとき、2位候補の「中」と「足り」の間が不連続なので、読点「、」の形態素情報を挿入してグラフを補完する。また、信頼度スコアが閾値0より低い形態素の表記に「ε;」を付加する。対数確率の計算時には、図8に示すように「ε」を用いるか、あるいは、「ε」を使った確率と元の形態素を使った確率を計算し、これらを比較して、最も大きいものを採用する。各時刻のノードにおいて、想定されるすべての固有表現クラス、例えばPERSONやLOCATIONやORGANIZATIONなどが付加された形態素が接続したとするときの対数確率を言語モデルに基づいて計算し、全体の対数確率の総和が最大となる固有表現クラスを各形態素において選択する。最終的に「ε;」が先頭にある形態素はこれを除いて、15msから1300msまでの「なかっ」「たり」の発声区間が人名として抽出される。なお、メディア変換部1では、手書き文字または映像中のテロップから文字認識を行い、認識された文字列に対して形態素解析を行い、形態素の並びを出力してもよい。
【0035】
なお、本発明は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【0036】
【発明の効果】
以上説明したように本発明は、音声データに対応する固有表現タグ付きテキストを用いて、認識誤りが含まれる音声認識結果の形態素に固有表現クラスを付与して言語モデルを学習することにより、固有表現が含まれる音声データが入力され、音声認識の語彙にないためなどの理由により正しく認識できない固有表現に対して、固有表現の発声区間を適切に同定し、固有表現の種類を識別することができるので、音声データに固有表現に関するメタデータを付けるという目的に貢献する。
【図面の簡単な説明】
【図1】本発明の一実施形態の固有表現抽出装置のブロック図である。
【図2】図1の固有表現抽出装置において、学習時における言語モデル作成までの処理の流れを示す図である。
【図3】図1の固有表現抽出装置において、実行時における固有表現付与の処理の流れを示す図である。
【図4】音声認識結果から得られる形態素の例を示す図である。
【図5】固有表現タグ付きテキストから得られる形態素の例を示す図である。
【図6】図4と図5の形態素の例から得られる、音声側の形態素にテキスト側の固有表現クラスを付与した例を示す図である。
【図7】音声データから固有表現を抽出するまでのステップを示す図である。
【図8】変形済みの形態系の確率の計算方法の説明図である。
【符号の説明】
1 メディア変換部
2 タグ付きテキスト解析部
3 形態素対応付け部
4 言語モデル学習部
5 単語グラフ作成部
6 固有表現付与部
7 制御部
8 認識語彙DB
9 形態素辞書
10 言語モデルデータベース
101〜111,201〜213 ステップ
Claims (11)
- 電子テキスト以外のメディアから内容を認識して電子テキストに変換する際に、単語表記と読みの情報が格納されている認識語彙データベースに基づいて、形態素の候補の並びを、指定した個数だけ尤もらしい順に出力するメディア変換ステップと、
電子テキスト以外のメディアに含まれる内容に対応する固有表現タグ付きテキストを解析して、単語情報が格納されている形態素辞書に基づいて形態素に分割し、固有表現タグに対応する固有表現クラスを固有表現タグに含まれるすべての形態素に付与し、固有表現クラス付き形態素の並びを出力するタグ付きテキスト解析ステップと、
認識候補の形態素の並びと前記固有表現クラス付き形態素の並びの両者を両者の形態素が有する情報に基づいて類似度が最大となるように対応付けて、前者の形態素に後者の形態素の有する固有表現クラスを付与する形態素対応付けステップと、
固有表現クラス付き形態素の並びから、統計的に言語モデルを学習する言語モデル学習ステップとを有するクラス同定モデル生成方法。 - 前記メディア変換ステップは、音声データから大語彙連続音声認識を行い、認識候補として信頼度スコアおよび開始時刻と終了時刻を持つ形態素の並びを出力する、請求項1に記載のクラス同定モデル生成方法。
- 前記メディア変換ステップは、手書き文字または映像中のテロップから文字認識を行い、認識された文字列に対して形態素解析を行い、形態素の並びを出力する、請求項1に記載のクラス同定モデル生成方法。
- 前記形態素対応付けステップは、メディア変換後の誤りを含む形態素の並びとタグ付きテキストの形態素の並びを比較する際に、各形態素同士についてそれぞれの形態素情報に基づいて類似度を計算し、先頭から類似度を累積し、対応する関係が1対1からずれる場合は累積した類似度から減点し、形態素の並びの終りまでの累積した類似度が最大となるように対応付けたのちに、テキストの形態素に対応するメディア変換後の誤りを含むすべての形態素にテキストの形態素が有する固有表現クラスあるいはこれに関連する固有表現クラスを付与する、請求項1に記載のクラス同定モデル生成方法。
- 前記形態素対応付けステップは、メディア変換後の誤りを含む形態素の信頼度スコアと形態素情報の少なくとも一方に基づいて、形態素を別の形態素に置換して固有表現クラス付き形態素の並びを出力する、請求項1に記載のクラス同定モデル生成方法。
- 単語表記と読みの情報が格納されている認識語彙データベースと、
単語情報が格納されている形態素辞書と、
電子テキスト以外のメディアから内容を認識して電子テキストに変換する際に、前記認識語彙データベースに基づいて、形態素の候補の並びを、指定した個数だけ尤もらしい順に出力するメディア変換手段と、
電子テキスト以外のメディアに含まれる内容に対応する固有表現タグ付きテキストを解析して、前記形態素辞書に基づいて形態素に分割し、固有表現タグに対応する固有表現クラスを固有表現タグに含まれるすべての形態素に付与し、固有表現クラス付き形態素の並びを出力するタグ付きテキスト解析手段と、
認識候補の形態素の並びと前記固有表現クラス付き形態素の並びの両者を両者の形態素が有する情報に基づいて類似度が最大となるように対応付けて、前者の形態素に後者の形態素の有する固有表現クラスを付与する形態素対応付け手段と、
固有表現クラス付き形態素の並びから、統計的に言語モデルを学習する言語モデル学習手段とを有するクラス同定モデル生成装置。 - 電子テキスト以外のメディアから内容を認識して電子テキストに変換する際に、単語表記と読みの情報が格納されている認識語彙データベースに基づいて、形態素の候補の並びを、指定した個数だけ尤もらしい順に出力するメディア変換ステップと、
指定した個数だけの尤もらしい順に並んだ形態素の並びから、各形態素をノードとし、各形態素の開始位置と終了位置において接続可能な形態素間の関係をリンクとする単語グラフを作成する単語グラフ作成ステップと、
単語グラフの各形態素について、すべての固有表現クラス付き形態素の候補を設定し、請求項1に記載の言語モデルに基づいた、単語グラフの始端から終端までの全体の確率が最大となるようにすべての固有表現クラス付き形態素を決定し、固有表現クラス付き形態素の並びを出力する固有表現付与ステップを有するクラス同定方法。 - 前記単語グラフ作成ステップは、形態素が持つ信頼度スコアと形態素情報の少なくとも一方に基づいて、形態素をその形態素情報を含めた別の形態素に置換変形した上で、メディア変換による複数の候補の形態素の並びから各形態素の開始位置および終了位置に基づいて単語グラフを作成する、請求項7に記載のクラス同定方法。
- 前記固有表現付与ステップは、形態素が置換変形されている場合は、各単語グラフのノードの確率を、置換変形された形態素情報を用いて言語モデルに基づいて計算し、固有表現付き形態素を決定し、格納されていた元の形態素情報に戻して出力する、請求項7に記載のクラス同定方法。
- 単語表記と読みの情報が格納されている認識語彙データベースと、
電子テキスト以外のメディアから内容を認識して電子テキストに変換する際に、前記認識語彙データベースに基づいて、形態素の候補の並びを、指定した個数だけ尤もらしい順に出力するメディア変換手段と、
指定した個数だけの尤もらしい順に並んだ形態素の並びから、各形態素をノードとし、各形態素の開始位置と終了位置において接続可能な形態素間の関係をリンクとする単語グラフを作成する単語グラフ作成手段と、
単語グラフの各形態素について、すべての固有表現クラス付き形態素の候補を設定し、請求項6に記載の言語モデルに基づいた、単語グラフの始端から終端までの全体の確率が最大となるようにすべての固有表現クラス付き形態素を決定し、固有表現クラス付き形態素の並びを出力する固有表現付与手段を有するクラス同定装置。 - 請求項1から5、請求項7から9のいずれかの方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002355284A JP4008344B2 (ja) | 2002-12-06 | 2002-12-06 | クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002355284A JP4008344B2 (ja) | 2002-12-06 | 2002-12-06 | クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004184951A true JP2004184951A (ja) | 2004-07-02 |
JP4008344B2 JP4008344B2 (ja) | 2007-11-14 |
Family
ID=32756023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002355284A Expired - Fee Related JP4008344B2 (ja) | 2002-12-06 | 2002-12-06 | クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4008344B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031010A (ja) * | 2004-07-15 | 2006-02-02 | Robert Bosch Gmbh | 固有名称又は部分的な固有名称の認識を提供する方法及び装置 |
JP2006171096A (ja) * | 2004-12-13 | 2006-06-29 | Ntt Docomo Inc | 連続入力音声認識装置および連続入力音声認識方法 |
JP2007322984A (ja) * | 2006-06-05 | 2007-12-13 | Nippon Telegr & Teleph Corp <Ntt> | モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体 |
WO2009081861A1 (ja) * | 2007-12-21 | 2009-07-02 | Nec Corporation | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
CN109215637A (zh) * | 2017-06-30 | 2019-01-15 | 三星Sds株式会社 | 语音识别方法 |
CN112733533A (zh) * | 2020-12-31 | 2021-04-30 | 浙大城市学院 | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 |
CN113763938A (zh) * | 2021-10-27 | 2021-12-07 | 杭州网易智企科技有限公司 | 语音识别方法、介质、装置和计算设备 |
CN117198289A (zh) * | 2023-09-28 | 2023-12-08 | 阿波罗智联(北京)科技有限公司 | 语音交互方法、装置、设备、介质及产品 |
-
2002
- 2002-12-06 JP JP2002355284A patent/JP4008344B2/ja not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031010A (ja) * | 2004-07-15 | 2006-02-02 | Robert Bosch Gmbh | 固有名称又は部分的な固有名称の認識を提供する方法及び装置 |
JP2006171096A (ja) * | 2004-12-13 | 2006-06-29 | Ntt Docomo Inc | 連続入力音声認識装置および連続入力音声認識方法 |
JP2007322984A (ja) * | 2006-06-05 | 2007-12-13 | Nippon Telegr & Teleph Corp <Ntt> | モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体 |
WO2009081861A1 (ja) * | 2007-12-21 | 2009-07-02 | Nec Corporation | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
US8583436B2 (en) | 2007-12-21 | 2013-11-12 | Nec Corporation | Word category estimation apparatus, word category estimation method, speech recognition apparatus, speech recognition method, program, and recording medium |
JP5440177B2 (ja) * | 2007-12-21 | 2014-03-12 | 日本電気株式会社 | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
CN109215637A (zh) * | 2017-06-30 | 2019-01-15 | 三星Sds株式会社 | 语音识别方法 |
CN109215637B (zh) * | 2017-06-30 | 2023-09-01 | 三星Sds株式会社 | 语音识别方法 |
CN112733533A (zh) * | 2020-12-31 | 2021-04-30 | 浙大城市学院 | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 |
CN112733533B (zh) * | 2020-12-31 | 2023-11-07 | 浙大城市学院 | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 |
CN113763938A (zh) * | 2021-10-27 | 2021-12-07 | 杭州网易智企科技有限公司 | 语音识别方法、介质、装置和计算设备 |
CN113763938B (zh) * | 2021-10-27 | 2024-06-07 | 杭州网易智企科技有限公司 | 语音识别方法、介质、装置和计算设备 |
CN117198289A (zh) * | 2023-09-28 | 2023-12-08 | 阿波罗智联(北京)科技有限公司 | 语音交互方法、装置、设备、介质及产品 |
CN117198289B (zh) * | 2023-09-28 | 2024-05-10 | 阿波罗智联(北京)科技有限公司 | 语音交互方法、装置、设备、介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
JP4008344B2 (ja) | 2007-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176804B2 (en) | Analyzing textual data | |
JP6251958B2 (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
JP3768205B2 (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
JP5599662B2 (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
TW448381B (en) | Automatic segmentation of a text | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
Păiş et al. | Capitalization and punctuation restoration: a survey | |
CN110335608B (zh) | 声纹验证方法、装置、设备及存储介质 | |
JP2007087397A (ja) | 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法 | |
Sen et al. | Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods | |
JP4738847B2 (ja) | データ検索装置および方法 | |
Anastasopoulos | Computational tools for endangered language documentation | |
Almanea | Automatic methods and neural networks in Arabic texts diacritization: a comprehensive survey | |
Zhang et al. | A survey on syntactic processing techniques | |
JP4089861B2 (ja) | 音声認識文章入力装置 | |
JP4171323B2 (ja) | 認識誤り訂正方法、装置、およびプログラム | |
JP4008344B2 (ja) | クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム | |
US11694028B2 (en) | Data generation apparatus and data generation method that generate recognition text from speech data | |
Nguyen et al. | A method for Vietnamese Text Normalization to improve the quality of speech synthesis | |
JP2020118929A (ja) | 要約生成装置、方法、プログラム、及び記憶媒体 | |
Comas et al. | Sibyl, a factoid question-answering system for spoken documents | |
JP3309174B2 (ja) | 文字認識方法及び装置 | |
JP4839291B2 (ja) | 音声認識装置およびコンピュータプログラム | |
JP2011175046A (ja) | 音声検索装置および音声検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050124 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050124 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050124 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050614 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070613 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070723 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070822 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070829 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100907 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100907 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110907 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120907 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130907 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |