JP4733436B2 - 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 - Google Patents

単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 Download PDF

Info

Publication number
JP4733436B2
JP4733436B2 JP2005166883A JP2005166883A JP4733436B2 JP 4733436 B2 JP4733436 B2 JP 4733436B2 JP 2005166883 A JP2005166883 A JP 2005166883A JP 2005166883 A JP2005166883 A JP 2005166883A JP 4733436 B2 JP4733436 B2 JP 4733436B2
Authority
JP
Japan
Prior art keywords
word
semantic expression
semantic
expression
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005166883A
Other languages
English (en)
Other versions
JP2006343405A (ja
Inventor
克仁 須藤
元 塚田
英作 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005166883A priority Critical patent/JP4733436B2/ja
Publication of JP2006343405A publication Critical patent/JP2006343405A/ja
Application granted granted Critical
Publication of JP4733436B2 publication Critical patent/JP4733436B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体に関する。
音声理解の問題は、音声を単語列として認識する音声認識と、単語列を意味表現の集合に変換する言語理解という2つの処理に分けて考えることができる。
言語理解については、単語列のどの部分が、どの意味表現と対応するかを明示した言語コーパスにより、単語列を意味表現に変換する規則や確率モデルを学習し、言語理解を行う技術がある(非特許文献1〜3参照)。
また、最近では、単語と意味表現との明示的な対応関係のない言語コーパスからも言語理解を行う言語理解装置も開発されている。この言語理解装置と、従来からある音声認識装置とを直列に接続することで、音声理解を行うこともできる(非特許文献4,5参照)。
さらに、単語と意味表現との明示的な対応関係のない言語コーパスから学習できる、音声認識結果の単語列と、その単語の確信度とを入力として、これらの情報に基づき、音声理解を実現する技術も開発されている(非特許文献6,7参照)。
K.Hacioglu and Ward,"A word graph interface for a flexible concept based speech understanding network",in Proc.EUROSPEECH 2001,pp.1775-1778 H.Bonneau-Maynard and F.Lefevre, "Investigating stochastic speech understanding", in Proc.IEEE ASRU,2001 Y.Esteve et al."Conceputual decording for spoken dialogue systems", in Proc.EUROSPEECH 2003,pp.617-620 M.Epstein et al."Statistical Natural Language Understanding using Hidden Clmpings",in Proc.ICASSP,vol.1,pp.176-179,1996 K.Macherey et al., "Naural Langage Understanding using Statistical Machine Translation", in Proc.EUROSPEECH 2001,pp.2205-2208 G.Tur et al."Improving Spoken Language Understanding using Word Confusion Networks" in Proc.ICSLP, pp.1137-1140,2002 G.Tur et al."Extending Boostig for Call classification using world Confusion Networks",in Proc.ICASSP,vol1,pp.437-440,2004
非特許文献1〜3に記載の技術において、単語列と意味表現との対応関係を明示した言語コーパスを作成するためには、言語に関する専門知識が必要になり、また作成にも時間がかかる。したがって、人的コストが高くなるという問題がある。
また、非特許文献4,5の技術を、音声対話システムで利用する場合、音声と関係のない言語理解装置は、入力される単語列に曖昧性があることを考慮した設計になっていない。このため、言語理解装置は、最尤の音声認識結果(単語列)をそのまま理解の対象とするか、認識の確信度の情報を使って確信度の低い単語を棄却してから理解の対象とするか、のどちらかになる。しかし、前者は音声認識の誤りが理解結果に残る危険性があり、後者は必要な単語が棄却される危険性があるという問題がある。
さらに、非特許文献6,7に記載の技術は、各意味表現は独立に生起することを前提としているため、ある意味表現Aが含まれる発話では意味表現Bも含まれやすい、といった共起の関係を把握することができない。つまり、入力された音声データが曖昧だったり、情報量が少なかったりした場合に、音声理解の精度が低下するおそれがある。
本発明は、前記した問題を解決し、より精度の高い音声理解を実現する音声理解装置等を提供することを課題とする。
前記した課題を解決するため、本発明の単語・意味表現組データベース作成装置を用いた単語・意味表現組データベースの作成方法は、前記単語・意味表現組データベース作成装置が、文ごとに、その文を構成する単語列とその文の内容に対応する意味表現の集合とからなり、前記単語列中の各単語と前記意味表現の集合に含まれる意味表現との対応関係が与えられていない言語コーパスの入力を受け付けるステップと、前記言語コーパスに含まれる各単語と各意味表現との共起頻度をもとに、前記各単語と各意味表現との関連度を計算し、当該関連度を記憶した単語・意味表現関連度データベースを作成するステップと、前記作成した単語・意味表現関連度データベースを参照して、前記言語コーパスの各文において考えうるすべての単語と意味表現との組み合わせのうち、前記関連度の和または積が最大となる組み合わせを計算するステップと、前記計算した組み合わせにより、前記言語コーパスの各単語と意味表現とを対応付けた単語・意味表現の対応付きコーパスを作成するステップと、前記単語・意味表現の対応付きコーパス中の各単語と意味表現の組み合わせの同時確率を、当該組み合わせの前方所定数の単語と意味表現の組み合わせの並びにおける当該組み合わせの条件付確率により計算し、この同時確率を含む単語・意味表現組データベースを作成するステップと、を実行することを特徴とする単語・意味表現組データベースの作成方法とした。
本発明によれば、
(1)使用する言語コーパスに、単語と意味表現との対応関係を明示的に与える必要がなくなるので、音声理解装置の作成コストを低くすることができる。
(2)音声認識と言語理解との処理を密に統合することにより、単語列と意味表現との組み合わせや、この組み合わせの並びや、共起の関係等、様々な仮説を考慮した音声理解をすることができる。また、このように様々な仮説を考慮した上で確信度を計算することにより、音声理解に関して、より正確な確信度を得ることができる。
(3)単語と意味表現との並びの同時確率を統計モデルとして利用することで、意味表現の共起の関係を表現できる。つまり、この意味表現の共起の関係を用いることで、入力された音声データが曖昧だったり、情報量が少なかったりした場合でも、精度の高い音声理解を行うことができる。
以下に、本発明を実施するための最良の形態(以下、実施の形態とする)を説明する。
ここでは、まず、本実施の形態の音声理解装置のハードウェア構成について説明する。
音声理解装置は、後記する言語コーパス10や、音声データ40の入力を受け付ける入力インターフェースと、音声理解部60の演算処理結果を外部に出力するための出力インターフェースとを備える。入力インターフェースは、例えば、ネットワークカード等であり、出力インターフェースは、例えば、ディスプレイ装置への出力インターフェース等である。
また、音声理解装置は、RAM(Random Access Memory)等のメモリ、ROM(Read Only Memory)、ハードディスク装置等の記憶部、CPU(Central Processing Unit)等の演算処理部を備えるコンピュータにより実現される。この記憶部は、後記する単語・意味組N−グラムモデル作成部30を実現するための単語意味組N−グラムモデル作成プログラム(単語・意味表現組データベース作成プログラム)、音声理解部60を実現するための音声理解プログラム等を格納する。CPUは、記憶部に格納された各プログラムをメモリ上に展開し、実行することで、単語・意味組N−グラムモデル作成部30や音声理解部60の機能を実現する。また、音声理解装置は、この音声理解装置への指示入力等を行う入力装置や、音声理解装置の演算処理の結果を出力表示する表示装置が接続されていてもよい。これらの構成および装置は、図面での説明は省略する。
図1は、本実施の形態の音声理解装置を機能展開して説明したブロック図である。
図1を用いて音声理解装置100の機能を説明する。
音声理解装置100は、言語コーパス10および音声データ40の入力を受け付けたり、音声理解結果や、音声認識結果を出力したりする入出力部70と、言語コーパス10に基づき単語・意味表現組N−グラムモデルDB(データベース)20を作成する単語・意味組N−グラムモデル作成部30とを備える。また、音声理解装置100は、単語・意味組N−グラムモデルDB20、音響モデルDB(データベース)50および変換辞書80を参照して、入力された音声データ40の音声理解結果等を出力する音声理解部60を備える。なお、単語・意味表現組N−グラムモデルDB20は、請求項における単語・意味表現組データベースに相当する。また、音響モデルDB50は、請求項における音響モデルに相当する。
入出力部70は、前記した入力インターフェースおよび出力インターフェースにより実現される。また、言語コーパス10、音響モデルDB50、変換辞書80、音声データ40および単語・意味組N−グラムモデルDB20は、音声理解装置100の記憶部(図示せず)に格納するものとして説明するが、外部の記憶装置に格納しておいて、入出力部70経由で読み出すようにしてもよい。
(言語コーパス)
言語コーパス10は、人間の発話を書き起こした書き起こし文(単語列)と、その文の内容に対応する意味表現の集合とから成る。ここでの意味表現は、発話の意味を意味表現記号の集合で表現できるようなもの(記号間の関係や構造は未定義)とする。
この言語コーパス10に含まれる文は、例えば、
単語列「東京駅から京都駅まで」、
意味表現の集合[from=(station=(東京)),to=(station=(京都))]、
といったものである。
しかし、この言語コーパス10は、従来技術とは異なり、単語列中の単語と意味表現との対応関係を与えられていない。つまり、前記の例において「東京駅から」がfrom=(station=(東京))に対応し、「京都駅まで」がto=(station=(京都))に対応するという対応関係は与えられていない。
(単語・意味組N−グラムモデル作成部)
単語・意味組N−グラムモデル作成部30は、言語コーパス10に基づき、単語・意味組N−グラムモデルDB20を作成する。この単語・意味組N−グラムモデル作成部30の機能は、単語・意味表現関連度計算部31と、単語・意味表現対応付け部33と、N−グラムモデル作成部35とに分けられる。
(単語・意味表現関連度計算部)
単語・意味表現関連度計算部31は、言語コーパス10内に現れる各単語および意味表現のそれぞれについて、単語と意味表現との関連度を計算し、単語・意味表現関連度DB(データベース)32を作成する。この単語・意味表現関連度DB32は、言語コーパス10の各単語が意味表現とどのくらいの関連度を持っているかを示したデータベースである。作成された単語・意味表現関連度DB32は、いったん記憶部の所定領域に格納され、単語・意味表現対応付け部33の演算処理に用いられる。
ここで、単語・意味表現関連度計算部31が計算する関連度は、例えば、以下の数式(1)で記述されるφ2という基準を用いる。このφ2は、2種類の記号(本実施の形態の単語wと意味表現c)の共起頻度を見ることで、両者の間の関連性の高低を測るための基準であり、詳細は以下の文献に記載されている。
W.A.Gale and K.W.Church,"Identifying word correspondences in parallel texts",in Proc.4th DARPA Workshop on Speech and Natural Language,1991
Figure 0004733436
数式(1)におけるfreq()は、言語コーパス10の中で、単語w、意味表現c、もしくはその両方が出現する文の数であり、Nは言語コーパス10内の全発話数である。
この数式(1)を用いた関連度の計算により、ある単語に対して、各意味表現がどのくらいの関連度を持っているのかを示す単語・意味表現関連度DB32が作成される。
(単語・意味表現対応付け部)
単語・意味表現対応付け部33は、言語コーパス10内のそれぞれの文について、単語・意味表現関連度DB32を基に、単語列と意味表現との対応付けを行う。
具体的な方法は、単語列(w1,w2,…,wl)と、意味表現の列(c1,c2,…,cm)に対し、単語wiにaiで対応付けられる意味表現がc(ai)であるとき、最適な対応付け(a1,a2,…,al)は、各wi,c(ai)の組の関連度の、文中での積が最大になるものであると定義する(以下の数式(2)参照)。
Figure 0004733436
すなわち、最適なa^(a1,a2,…,al)の探索のためには、すべてのwiとaiとの組み合わせについて関連度の積を計算し、その値が最大となるものを探索し、対応付けを行う。そして、対応付けられた単語wと意味表現cとを「意味表現:単語」という形で組み合わせた記号(t1,t2,…,tl)の形に書き換えて、単語・意味表現の対応付きコーパス34を作成する。ここで、何も意味表現が対応付けられなかった単語に対しては、空の意味表現<eps>を対応づけることとする。また、<eps>と各単語との関連度は、常に1であるものとする。
例えば、単語・意味表現対応付け部33は、前記した言語コーパス10の
単語列「東京駅から京都駅まで」
意味表現の集合[from=(station=(東京)),to=(station=(京都))]
について、それぞれの関連度を算出し、この関連度が最大となる組み合わせとして
from=(station=(東京)):東京 <eps>:から to=(station=(京都):京都 <eps>:まで
という単語・意味表現の対応付きコーパス34を作成する。この単語・意味表現の対応付きコーパス34は、記憶部の所定領域に格納しておく。この単語・意味表現の対応付きコーパス34は、N−グラムモデル作成部35が単語・意味表現組N−グラムモデルDB20を作成する際に用いられる。
なお、ここでは、最適な対応付けa^(a1,a2,…,al)は、各wi,c(ai)の組の関連度の積が最大になるものであるとしたが、以下の数式(3)のように関連度の和が最大になるものとしてもよい。
Figure 0004733436
(N−グラムモデル作成部)
このN−グラムモデル作成部35は、単語・意味表現の対応付きコーパス34の各(t1,t2,…,tl)に基づき、単語・意味表現組N−グラムモデルDB20を作成する。
この単語・意味表現組N−グラムモデルDB20は、音声認識技術で一般的に用いられる単語N−グラムモデルと同様に、単語・意味表現の組み合わせをN-グラムでモデル化したものである。つまり、単語と意味表現との組み合わせNグラムごとに、この組み合わせが生起する確率を示したものである。
なお、単語N−グラムモデルとは、ある単語が生起する確率を決める際に、その単語の前(N−1)個の単語の並びの条件付き確率で近似するモデルのことである。この単語N−グラムモデルを用いることによって、単語列W=(w1,w2,…,wl)の生起確率P(W)を以下の数式(4)の2行目のように近似することができる。
Figure 0004733436
従来技術において、単語N−グラムモデル内の記号が単語だったのに対し、本実施の形態の単語・意味表現組N−グラムモデル(単語・意味表現組N−グラムモデルDB20)は、単語とその単語に対応する意味表現とを結合した記号となっている点で異なる。すなわち、単語・意味表現組N−グラムモデル20は、ある単語と意味表現との組が生起する確率を決める際に、その組の前(N−1)個の単語と意味表現との組の並びを条件付き確率で近似するモデルである。ここで、(t1,t2,…,tl)の形に対応付けがなされている単語列Wと意味表現の列Cとの同時確率P(W,C)は、以下の数式(5)の2行目のように近似することができる。
Figure 0004733436
例えば、まず、単語・意味組N−グラムモデル作成部30は、単語・意味表現の対応付きコーパス34である
from=(station=(東京)):東京 <eps>:から to=(station=(京都)):京都 <eps>:まで
を以下のようにN=3(3グラム)で区切る。
<文頭> from=(station=(東京)):東京 <eps>:から
from=(station=(東京)):東京 <eps>:から to=(station=(京都)):京都
<eps>:から to=(station=(京都):京都 <eps>:まで
to=(station=(京都):京都 <eps>:まで <文末>
そして、前記した数式(5)により言語コーパス10全体における各組み合わせの生起確率を算出し、単語・意味表現組N−グラムモデルDB20を作成する。この後、単語・意味組N−グラムモデル作成部30は、作成した単語・意味表現組N−グラムモデルDB20を、記憶部の所定領域に格納する。
音響モデルDB50は、音声の特徴量と音素との対応を示したものである。また、変換辞書80は、各単語ごとに、その単語を音素の組み合わせで示したものである。この音響モデルDB50および変換辞書80は、後記する音声理解結果探索部61が音声データ40の音声認識や意味表現認識をするときに参照される。なお、この音響モデルDB50および変換辞書80は、従来技術である音声認識装置に用いられているものと同じものである。
(音声理解部)
続いて、音声理解部60について説明する。音声理解部60は、入出力部70経由で音声データ40の入力を受けると、記憶部の音響モデルDB50、変換辞書80および単語・意味表現組N−グラムモデルDB20を参照して、音声理解結果(意味表現認識結果および音声認識結果)を出力する。この音声理解部60は、音声理解結果探索部61と、出力整形部63とに分けられる。
(音声理解結果探索部)
音声理解結果探索部61では、音声データ40の入力を受けると、音響モデルDB50および単語・意味表現組N−グラムモデルDB20を参照して、入力された音声データに対応する単語と意味表現とを組にした記号の列を出力する。また、音声理解結果探索部61は、各記号の認識における確信度も併せて出力する。なお、この音声理解結果検索部61は請求項の音声理解処理部に相当する。
この確信度とは、その単語(意味表現)に競合するような他の候補が見あたらなかったことの度合いを示す値である。つまり、確信度が1に近づくほど、その単語(意味表現)に競合するような他の候補が見あたらなかったことを示し、確信度が0に近づくほど音声理解の過程においてその単語(意味表現)の他にも似たスコアをもつ単語(意味表現)候補が多く競合していたことを示す。なお、この音声理解結果探索部61は、従来の音声認識技術における音声認識処理を応用することで実現可能である。
音声理解結果探索部61における数学的な問題設定は以下の通りである。
Xは音声データから得られる時系列の特徴量、Wは単語列、Cは意味表現列を表す。P(X|W)は音響モデル、P(W)は言語モデルと呼ばれる。従来技術である音声認識装置では、以下の数式(6)の条件付き確率P(W|X)を最大化(あるいは前記特徴量の尤度を最大化)するような単語列W^を探索し、音声認識結果として出力する。
Figure 0004733436
ここで、本実施の形態の音声理解結果探索部61が音声データ40から直接意味表現の列を出力する計算式は、数式(6)を応用して、以下の数式(7)のようになる。
Figure 0004733436
なお、数式(7)の3行目の近似は、
(1)XがCと独立であるという仮定から、P(X|W,C)のP(X|W)への置き換え、
(2)Viterbi近似により、ΣWP(X|W)P(W|C)P(C)の総和型の、最も尤
度の高いX,Wについての確率P(X|W)P(W|C)P(C)への置き換え、
を行っている。
すなわち、本実施の形態では、数式(4)および数式(6)と、数式(5)および数式(7)とが同じ形であることを利用して、従来技術の音声認識装置で用いられていた単語N-グラムモデルを単語・意味表現組N−グラムモデル(単語・意味表現組N−グラムモデルDB20)に置き換える。これにより、モデルが置き換えられた音声認識装置からは、音声データ40の入力に対して、単語と意味表現が組になった記号が認識結果として得られる。
また、認識された記号の確信度はその記号が、認識結果に現れる事後確率として表現する。なお、音声認識における事後確率の計算方法については、以下の文献に記載されている。
Frank Wessel et al.,"Confidence measures for large vocabulary continuous speech recognition", IEEE Tansactionsons Speech and Audio Processing,Vol.9,no.3,pp.288-298
また、事後確率の計算を、音声認識装置に組み込んだ技術は、以下の文献に記載されている。
李晃伸他,「2パス深索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」,情報処理学会研究報告vol.2003,No・124,2003-SLP-9,pp.281-286
本実施の形態の音声理解結果探索部61は、これらの技術を用いて確信度を計算すると、この確信度を単語・意味表現組の記号列に付して確信度付き単語・意味表現組記号列62を作成する。そして、この確信度付き単語・意味表現組記号列62を記憶部の所定領域に格納しておく。この後、確信度付き単語・意味表現組記号列62は出力整形部63により所定のフォーマットに整形される。
(出力整形部)
出力整形部63は、確信度付き単語・意味表現組記号列62から、確信度がある水準(閾値)より高い記号を選択する。そして、この記号から単語と意味表現とを抽出し、入力された音声データ40に対応する単語列と意味表現との集合として整形して出力する。
このときの出力の記号列は、各記号が「意味表現:単語」の形で、単語と意味表現とが組になった記号を用いている。出力整形部63は、この「意味表現:単語」から意味表現の記号を切り出すことで、意味表現認識結果である意味表現列を得ることができ、「意味表現:単語」から単語の記号を切り出すことで、音声認識結果である単語列を得ることができる。
ここで、図1を用いて音声理解装置100の各構成要素の動作を簡単に説明する。
まず、単語・意味表現関連度計算部31は、入出力部70経由で入力された言語コーパス10について、単語と意味表現との関連度を計算し、単語・意味表現関連度DB32を作成する(S1)。次に、単語・意味表現対応付け部33は、単語・意味表現関連度DB32を参照して、言語コーパス10の単語と意味表現との関連度が最大になる組み合わせを計算する。そして、単語・意味表現対応付け部33は、その組み合わせで単語・意味表現の対応付きコーパス34を作成する(S2)。次に、N−グラムモデル作成部35は、この単語・意味表現の対応付きコーパス34に基づき、単語・意味表現組N−グラムの生起確率を計算し、単語・意味表現組N−グラムモデルDB20を作成する(S3)。音声理解結果検索部61は、入出力部70経由で音声データ40の入力を受け付けると、記憶部の音響モデルDB50、変換辞書80およびS3で作成した単語・意味表現組N−グラムモデルDB20を参照して、入力された音声データ40に対応する確信度付き単語・意味表現組記号列62を作成する(S4)。そして、出力整形部63は、この確信度付き単語・意味表現組記号列62のうち、確信度がある水準(閾値)より高い記号を選択する。次に、出力整形部63は、選択した記号から単語と意味表現とを抽出し、入力された音声データ40に対応する単語列と意味表現との集合として整形して、入出力部70経由で出力する(S5)。
このようにして音声理解装置100は、音声理解結果(意味表現認識結果および音声認識結果)を演算出力する。
本実施の形態に係る音声理解装置100は、前記したような処理を実行させる音声理解プログラムおよび単語・意味表現組N−グラムモデル作成プログラムによって実現することができ、これらのプログラムをコンピュータによる読み取り可能な記憶媒体(CD−OM等)に記憶して提供することが可能である。また、そのプログラムを、ネットワークを通して提供することも可能である。
続いて、本発明の実施例を説明する。本実施例は、音声理解装置100に入力される言語コーパス10として、鉄道の経路案内のドメイン(分野)を対象とした音声対話システムにより収集された発話を用いている。
なお、前記した音声対話システムでは、yes(肯定)、no(否定)、backchannel(あいづち)、departtime(出発時間:timeの上位クラス)、arrivetime(到着時間:timeの上位クラス)、time(時間(出発・到着の指定なし))、from(出発駅:stationの上位クラス)、to(到着駅:stationの上位クラス)、station(駅名(出発・到着の指定なし))、no=(X)(Xの否定)等の意味表現が定義されている。
ここでの上位クラスの意味表現は、下位の意味表現を含むものとしている。例えば、単に「東京駅」を指す場合はstation=(東京)と表され、「出発駅としての東京駅」を指す場合はfrom=(station=(東京))と表される。
本実施例で用いる言語コーパス10は、以下のように、音声ファイル名:書き起こされた文(単語列):対応する意味表現の列からなる(一部抜粋)。
(言語コーパス)
/norikae/20030807/000/20030807-000-000.wav:竹橋 から 高崎 まで :from
=(station=(竹橋)) to=(station=(高崎))
/norikae/20030807/000/20030807-000-001.wav:十八 時 二十 分 到着 :
arrivetime(hour=(18),minute=(20))
/norikae/20030807/000/20030807-000-002.wav:お願い し ます:yes
/norikae/20030807/000/20030807-000-003.wav:竹橋 から 高崎 まで
:from=(station=(竹橋)) to=(station=(高崎))
/norikae/20030807/000/20030807-000-006.wav:十八 時 二十 分 高崎 に 到着 :to=(station=(高崎)) arrivetime(hour=(18),minute=(20))
/norikae/20030807/000/20030807-000-007.wav:十八 時 二十 分 高崎 に 到着 :to=(station=(高崎)) arrivetime(hour=(18),minute=(20))
単語・意味組N−グラムモデル作成部30は、前記した言語コーパス10の各単語と意味表現との組に対して、前記した数式(1)の関連度(φ2)を計算し、単語・意味表現組N−グラムモデルDB20となる以下のようなファイルを作成する(一部抜粋)。ここでは、ファイルの各行に、言語コーパス10内の単語と、その単語に対する各意味表現の関連度を示している。ここでの書式は、「意味表現:関連度(φ2)」としている。
(ファイル)
台場
to=(station=(台場)):(0.111038)
station=(台場):(0.110904)
arrivetime(hour=(9),minute=(40)):(0.002822)
from=(station=(赤羽)):(0.002662)
from=(station=(王子)):(0.000966)
backchannel:(0.000039)
まで
to=(station=(横浜)):(0.001614)
no:(0.01138)
to=(station=(蘇我)):(0.001059)
to=(station=(台場)):(0.000002)
このファイルの2行目から7行目までは、「台場」という単語に対する各意味表現の関連度(φ2)を示している。例えば、「台場」という単語と、「to=(station=(台場))」(目的地としての「台場」)という意味表現とは、「0.111038」の関連度を持っていることを示している(2行目参照)。
また、9行目から12行目までは、「まで」という単語に対する各意味表現の関連度(φ2)を示している。例えば、「まで」という単語と、「to=(station=(台場))」という意味表現とは、「0.000002」の関連度を持っていることを示している(12行目参照)。
続いて、単語・意味表現対応付け部33は、前記したファイルデータを用いて、言語コーパス10の単語列と意味表現列との最適な対応付けを検索する。ここでの探索は、前記した数式(2)のa^を最大にする対応付けの探索問題として解く。つまり、各文中ですべての対応付けの組み合わせに対する関連度の積をそれぞれ求め、それが最大となるものを最適な対応付けとして選択する。
例えば、言語コーパス10が、
単語列:台場まで、
意味表現列:to=(station=(台場))、
という発話からなるとき、可能な対応付けは、
(1)to=(station=(台場)):台場 <eps>:まで、
(2)<eps>:台場 to=(station=(台場)):まで、
の2種類である。
ここで(1)の関連度の積は「0.11038」であり、(2)の関連度の積は「0.000002」であるので、(1)が最適な対応付けとして選択されることになる。
このような処理の結果、最適な対応付けが行われた単語と意味表現とを組とした新しい記号を用い、言語コーパス10を以下のように書き換え、単語・意味表現の対応付きコーパス34を作成する(一部抜粋)。ここでは、単語と意味表現とを組とした記号を空白で区切って表記されている。
なお、<s>:<s>は文の開始を示す記号であり、</s>:</s>は文の終了を表す記号である。
(単語・意味表現の対応付きコーパス)
<s>:<s> from=(station=(横浜)):横浜 <eps>:を <eps>:九 <eps>:時\\
departtime=(hour=(9),minute=(45)):四十五 <eps>:分 <eps>:に <eps>:出発\\
to=(station=(蘇我)):蘇我 <eps>:まで </s>:</s>
<s>:<s> departtime=(hour=(21),minute=(50)):二十一 <eps>:時 <eps>:五十\\
<eps>:分 <eps>:に <eps>:乗車 <eps>:し <eps>:ます </s>:</s>
<s>:<s> departtime=(hour=(14),minute=(30)):十四 <eps>:時 <eps>:三十 \\
<eps>:分 <eps>:に from=(station=(新宿)) <eps>:を <eps>:出発 <eps>:し\\ <eps>:ます </s>:</s>
このようにして作成された単語・意味表現の対応付きコーパス34を、単語・意味組N−グラムモデル作成部30が単語・意味表現組N−グラムモデルDB20に変換する。
本実施例においては、単語・意味組N−グラムモデル作成部30としてフリーウェアとして公開されている技術であるCMU-cambridge SLM Toolkit(P.Clarkson and R.Rosenfeld,"Staistica1 1anguage modeling using the CMU-Cambridgetoolkit",in Proc.EUROSPEECH 1997,pp.2707-2710参照)というN−グラム言語モデル作成ソフトウェアを用いた。
このソフトウェアを用いて、単語・意味表現の対応付きコーパス34を、通常の単語列のみの言語コーパスの場合と同じように処理すると、以下のような形式(ARPA形式)のファイルが出力可能である(一部抜粋)。なお、本実施例では、N=3のトライグラムモデルおよびN=2のバイグラムモデルを作成した。以下に、本実施例で作成したN=3のトライグラムモデルの一部を示す。左側の値は、右側の記号の3つの組に対する尤度スコア(対数表記)である。
例えば、以下の単語・意味表現組N−グラムモデルDB20において、言語コーパス10に対する「to=(station=(浅草)):浅草 <eps>:から from=(station=(新宿)):新宿」の3つの組の尤度スコアは、「-0.5661」であることを示す。
(単語・意味表現組N−グラムモデルDB)
-0.5146 to=(station=(川越)):川越 backchannel:や <s>
-1.1167 to=(station=(浅草)):浅草 <eps>:から <s>
-0.5661 to=(station=(浅草)):浅草 <eps>:から from=(station=(新宿)):新宿
-1.1167 to=(station=(浅草)):浅草 <eps>:から from=(station=(大久保)):大久保
-0.2651 to=(station=(浅草)):浅草 <eps>:て <eps>:し
-0.5146 to=(station=(浅草)):浅草 <eps>:発 <eps>:分
このようにして作成された単語・意味表現組N−グラムモデルDB20を音声認識装置で利用する。本実施例では、音声理解結果探索部61として、フリーウェアとして公開されている技術であるJulius(A.Lee et al.,"Julius-an open source real-time large vocabllary recognition engine",in Proc.EUROROSPEECH 2001,p.1691-1694参照)という音声認識ソフトウェアを用いる。
なお、単語・意味表現組の記号は、前記した変換辞書80に、以下のような形式の語彙ファイルとして単語部分の読み(音素列)を持つ認識語彙として定義する。
from=(station=(竹橋)):竹橋 from=(station=(竹橋)) t a k e b a sh i
from=(station=(高崎)):高崎 from=(station=(高崎)) t a k a s a k i
空白で区切られた各行の1列目は単語・意味表現組の記号であり、2列目は音声認識ソフトウェアが当該記号に対して標準で出力する表記記号であり、3列目は認識語彙の音素列である。
ここで、音声データ40としてWAV形式で録音された音声ファイルを前記の認識語彙(変換辞書80)を持つ音声理解装置100(本実施例では、従来技術である音声認識装置を利用)に入力すると、この認識語彙と単語・意味表現組N−グラムモデルDB20とを参照して、音声理解結果探索部61は、以下のような認識結果を出力する。この認識結果は、本実施の形態の確信度付き単語・意味表現組記号列62に相当する。
(確信度付き単語・意味表現組記号列)
sentencel:from=(station=(竹橋)) to=(station=(高崎))
wseq1:<s> from=(station=(竹橋)):竹橋 <eps>:から to=(station=(高崎)):高崎 <eps>:まで</s>
phseq1:silB|t a k e b a sh i|k a r a|t a k a s a ki|m a d e|silE
cmscore1:0.984 0.982 0.955 0.898 0.510 1.000
score1:-5849.820801
この中で、1行目(sentencel)は本実施例で得られる音声理解結果、2行目〜3行目(wseq1)は認識された単語・意味表現組の記号列、4行目(phseq1)は音素列、5行目(cmscore1)は確信度、6行目(score1)は認識スコアである。
次に、出力整形部63は、確信度付き単語・意味表現組記号列34の単語・意味表現組の記号列(wseq1)および確信度(cmscore1)を利用し、
(1)文の先頭および末尾を表す記号<s>,</s>を取り去る。
(2)あらかじめ設定した確信度の水準(閾値)以下の記号は出力しない(本実施の形態では、確信度の閾値を0.5としている)。
(3)意味表現と単語とを分ける記号「:」で、各記号を分割し、意味表現の記号列と単語列とを分けて出力する。
これにより、
意味表現認識結果として、
from=(station=(竹橋))(確信度0.982)to=(station=(竹橋))(確信度0.898)
が出力され、
音声認識結果として、
竹橋(確信度0.982)から(確信度0.955)高崎(確信度0.898)まで(確信度0.510)
といったデータが出力される。
以上のようにして、音声理解装置100は、入力された音声データ40の音声理解を行うことができる。なお、ここでは、出力整形部63に設定した確信度の閾値は、前記した記憶部に格納されており、入出力部70経由で変更可能である。例えば、前記の音声理解結果に対して、確信度の閾値を0.6とすれば、確信度0.6以下の記号は出力しないので、音声認識結果の「まで(確信度0.510)」は出力しないことになる。
つまり、音声理解装置100の利用者が、より確信度の高い音声理解結果を得たいときには、閾値を高く設定し、確信度の低いものも含めた音声理解結果を得たいときには、閾値を低く設定すればよい。
《実験結果》
本発明によって得られる効果を示すための実験として、同じ言語コーパス(約9000文から成る)を利用して作成した単語N−グラムモデル(単語N−グラムモデルDB)および単語・意味表現組N−グラムモデルDB20を利用して、約3000文の音声データ40に対して、以下の各方法を用いて音声理解を行った結果を示す(図2参照)。本実験では以下の(1)〜(4)の4つの方法により音声理解を行い、各方法の性能の比較を行った。ここでは、確信度により音声理解結果の棄却水準を0(一切棄却しない)から1(すべて棄却する)まで変化させて、性能の比較をしている。
(1)単語N-グラムを用いて音声認識を行い、得られた単語列に対して最も尤度の高い意味表現列を、単語・意味表現組N−グラムモデルDB20を用いて探索して出力する方法(baseline)。
(2)単語N-グラムを用いて音声認識を行い、得られた単語列の中で、確信度の高い単語を棄却して未知語を表す記号に置き換えた後、単語列に対して最も尤度の高い意味表現列を、単語・意味表現組N−グラムモデルDB20を用いて探索して出力する方法(単語の確信度を用いて不確かな単語を無視する方法)(WordReject)。
(3)本実施例の音声理解方法(Proposed)。
(4)(比較のため)音声認識がすべて正しく行われた場合を想定し、正しい単語列に対して最も尤度の高い意味表現列を、単語・意味表現組N−グラムモデルDB20を用いて探索して出力する方法(Transcription)。
図2の横軸(Precision)は、音声理解結果として出力された意味表現のうち、正解であったものの割合(適合率)を示す。縦軸(Recall)は、音声データ40に対して得られるべき正解のうち、音声理解結果として出力されたものの割合(再現率)を示す。いずれも単位は%である。
図2に示すように、例えば、(1)〜(3)の方法による出力結果の適合率を、再現率80%あたりで比較すると、いずれも80%程度である。しかし、再現率70%あたりで比較すると、(3)Proposedの方法(本実施例)は、(1)baselineや(2)WordRejectの方法に比べて高い適合率の音声理解を行うことができることが分かる。
また、例えば、(1)〜(3)の方法による出力結果の再現率を、適合率86%あたりで比較すると、(1)Precisionの方法は37%程度であり、(2)WordRejectの方法は37%〜70%程度であり、(3)Proposedの方法(実施例)は78%程度であることが分かる。つまり、(3)Proposedの方法(実施例)は、(1)baselineや(2)WordRejectの方法に比べて高い再現率の音声理解を行うことができることが分かる。
この結果により、本発明は音声認識と言語理解との過程を統合した上で、確信度を算出し、この確信度の水準を下回る音声理解結果を棄却することにより、他の方法と同程度の再現率を得られるときの適合率を高くすることができることが示された。また、他の方法と同程度の適合率を得られるときの再現率を高くすることができることが示された。
本実施の形態の音声理解装置を機能展開して説明したブロック図である。 確信度により音声理解結果の棄却水準を変化させたときの性能変化を示したグラフである。
符号の説明
10 言語コーパス
20 意味・表現組N−グラムモデルDB(単語・意味表現組データベース)
30 単語・意味組N−グラムモデル作成部
31 単語・意味表現関連度計算部
32 単語・意味表現関連度DB
33 単語・意味表現対応付け部
34 単語・意味表現の対応付きコーパス
35 N−グラムモデル作成部
40 音声データ
50 音響モデルDB(音響モデル)
60 音声理解部
61 音声理解結果探索部(音声理解処理部)
62 確信度付き単語・意味表現組記号列
63 出力整形部
70 入出力部
80 変換辞書
100 音声理解装置

Claims (7)

  1. 単語・意味表現組データベース作成装置を用いた単語・意味表現組データベースの作成方法であって、
    前記単語・意味表現組データベース作成装置が、
    文ごとに、その文を構成する単語列とその文の内容に対応する意味表現の集合とからなり、前記単語列中の各単語と前記意味表現の集合に含まれる意味表現との対応関係が与えられていない言語コーパスの入力を受け付けるステップと、
    前記言語コーパスに含まれる単語と意味表現との共起頻度をもとに、前記各単語と意味表現との関連度を計算し、当該関連度を記憶した単語・意味表現関連度データベースを作成するステップと、
    前記作成した単語・意味表現関連度データベースを参照して、前記言語コーパスの各文において考えうるすべての単語と意味表現との組み合わせのうち、前記関連度の和または積が最大となる組み合わせを計算するステップと、
    前記計算した組み合わせにより、前記言語コーパスの単語と意味表現とを対応付けた単語・意味表現の対応付きコーパスを作成するステップと、
    前記単語・意味表現の対応付きコーパス中の各単語と意味表現の組み合わせの同時確率を、当該組み合わせの前方所定数の単語と意味表現の組み合わせの並びにおける当該組み合わせの条件付確率により計算し、この同時確率を含む単語・意味表現組データベースを作成するステップと、
    を実行することを特徴とする単語・意味表現組データベースの作成方法。
  2. 請求項1に記載の単語・意味表現組データベースの作成方法により作成された単語・意味表現組データベースを用いて、入力された音声データに基づき、前記音声データが意味する単語列および意味表現列の認識を行う音声理解装置を用いた音声理解方法であって、
    前記音声理解装置が、
    前記音声データの入力を受け付けるステップと、
    前記音声データの入力に対し、前記単語・意味表現組データベースと、単語を構成する音素の音響特徴を示した音響モデルとを参照して、前記単語と意味表現の組である単語・意味表現組を認識し、前記認識した単語・意味表現組と、前記認識において当該単語・意味表現組が得られる事後確率である確信度とを出力する音声理解ステップと、
    前記確信度付きの単語・意味表現組の列から、前記確信度が所定の閾値より高い単語・意味表現組を選択し、前記選択した単語・意味表現組に含まれる単語と意味表現とを用いて、前記音声データに対応する単語列と意味表現との集合として整形して出力する出力整形ステップと、
    を実行することを特徴とする音声理解方法。
  3. 文ごとに、その文を構成する単語列とその文の内容に対応する意味表現の集合とからなり、前記単語列中の各単語と前記意味表現の集合に含まれる意味表現との対応関係が与えられていない言語コーパスの入力を受け付ける入力部と、
    前記言語コーパスに含まれる各単語と各意味表現との共起頻度をもとに、前記各単語と各意味表現との関連度を計算し、当該関連度を記憶した単語・意味表現関連度データベースを作成する単語・意味表現関連度計算部と、
    前記作成した単語・意味表現関連度データベースを参照して、前記言語コーパスの各文において考えうるすべての単語と意味表現との組み合わせのうち、前記関連度の和または積が最大となる組み合わせを計算し、前記計算した組み合わせにより、前記言語コーパスの各単語と意味表現とを対応付けた単語・意味表現の対応付きコーパスを作成する単語・意味表現対応付け部と、
    前記単語・意味表現の対応付きコーパス中の各単語と意味表現の組み合わせの同時確率を、当該組み合わせの前方所定数の単語と意味表現の組み合わせの並びにおける当該組み合わせの条件付確率により計算し、この同時確率を含む単語・意味表現組データベースを作成するモデル作成部と、
    を備える単語・意味表現組データベース作成装置。
  4. 請求項3に記載の単語・意味表現組データベース作成装置により作成された単語・意味表現組データベースを用いて、入力された音声データに基づき、前記音声データが意味する単語列および意味表現列の認識を行う音声理解装置であって、
    前記音声データの入力を受け付ける入力部と、
    前記単語・意味表現組データベースと、単語を構成する音素の音響特徴を示した音響モデルとを記憶する記憶部と、
    前記音声データの入力に対し、前記単語・意味表現組データベースと、前記音響モデルとを参照して、前記単語と意味表現の組である単語・意味表現組を認識し、前記認識した単語・意味表現組と、前記認識において当該単語・意味表現組が得られる事後確率である確信度とを出力する音声理解処理部と、
    前記確信度付きの単語・意味表現組の列から、前記確信度が所定の閾値より高い単語・意味表現組を選択し、前記選択した単語・意味表現組に含まれる単語と意味表現とを用いて、前記音声データに対応する単語列と意味表現との集合として整形して出力する出力整形部と、
    を備えることを特徴とする音声理解装置。
  5. コンピュータに、請求項に記載の単語・意味表現組データベースの作成方法を実行させるためのプログラム。
  6. コンピュータに、請求項2に記載の音声理解方法を実行させるためのプログラム。
  7. 請求項5または請求項6に記載のプログラムを記憶したコンピュータに読み取り可能な記憶媒体。
JP2005166883A 2005-06-07 2005-06-07 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 Expired - Fee Related JP4733436B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005166883A JP4733436B2 (ja) 2005-06-07 2005-06-07 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005166883A JP4733436B2 (ja) 2005-06-07 2005-06-07 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体

Publications (2)

Publication Number Publication Date
JP2006343405A JP2006343405A (ja) 2006-12-21
JP4733436B2 true JP4733436B2 (ja) 2011-07-27

Family

ID=37640429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005166883A Expired - Fee Related JP4733436B2 (ja) 2005-06-07 2005-06-07 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体

Country Status (1)

Country Link
JP (1) JP4733436B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
JP6370749B2 (ja) * 2015-07-31 2018-08-08 日本電信電話株式会社 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
CN112183106A (zh) * 2020-09-03 2021-01-05 广发证券股份有限公司 一种基于音素联想及深度学习的语义理解方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004101963A (ja) * 2002-09-10 2004-04-02 Advanced Telecommunication Research Institute International 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags

Also Published As

Publication number Publication date
JP2006343405A (ja) 2006-12-21

Similar Documents

Publication Publication Date Title
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JP5318230B2 (ja) 認識辞書作成装置及び音声認識装置
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
CN107705787A (zh) 一种语音识别方法及装置
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
Menacer et al. An enhanced automatic speech recognition system for Arabic
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP2019012095A (ja) 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム
Raval et al. Improving deep learning based automatic speech recognition for Gujarati
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
Larabi-Marie-Sainte et al. A new framework for Arabic recitation using speech recognition and the Jaro Winkler algorithm
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP2004133003A (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
KR100511247B1 (ko) 음성 인식 시스템의 언어 모델링 방법
JP2004294542A (ja) 音声認識装置及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110419

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110422

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees