JP2002149188A - 自然言語処理装置および自然言語処理方法、並びに記録媒体 - Google Patents

自然言語処理装置および自然言語処理方法、並びに記録媒体

Info

Publication number
JP2002149188A
JP2002149188A JP2000347491A JP2000347491A JP2002149188A JP 2002149188 A JP2002149188 A JP 2002149188A JP 2000347491 A JP2000347491 A JP 2000347491A JP 2000347491 A JP2000347491 A JP 2000347491A JP 2002149188 A JP2002149188 A JP 2002149188A
Authority
JP
Japan
Prior art keywords
category
word
speech recognition
vocabulary
undetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000347491A
Other languages
English (en)
Inventor
Koji Asano
康治 浅野
Hiroaki Ogawa
浩明 小川
Katsuki Minamino
活樹 南野
Lucke Helmut
ルッケ ヘルムート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000347491A priority Critical patent/JP2002149188A/ja
Publication of JP2002149188A publication Critical patent/JP2002149188A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 カテゴリが定義されていないカテゴリ未定単
語のカテゴリを精度良く推定し、単語辞書に新たに登録
された単語を含む発話であっても、適切な言語的評価を
行って、精度の高い音声認識を行う。 【解決手段】 カテゴリ推定部9は、マッチング部4が
出力する音声認識結果に、辞書データベース6の単語辞
書に登録されたカテゴリ未定単語が含まれるか否かを判
定し、含まれる場合には、文法データベース7の文法規
則に定義されている複数のカテゴリの中から、カテゴリ
未定単語のカテゴリを、そのカテゴリ未定単語を含む音
声認識結果の言語的な尤度を表す言語スコアに基づいて
推定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語処理装置
および自然言語処理方法、並びに記録媒体に関し、特
に、例えば、辞書に新たな単語が登録されても、精度の
高い音声認識を行うことができるようにする自然言語処
理装置および自然言語処理方法、並びに記録媒体に関す
る。
【0002】
【従来の技術】図1は、従来の音声認識装置の一例の構
成を示している。
【0003】ユーザが発した音声は、マイク(マイクロ
フォン)1に入力され、マイク1では、その入力音声
が、電気信号としての音声信号に変換される。この音声
信号は、AD(Analog Digital)変換部2に供給される。
AD変換部2では、マイク1からのアナログ信号である
音声信号がサンプリング、量子化され、ディジタル信号
である音声データに変換される。この音声データは、特
徴抽出部3に供給される。
【0004】特徴抽出部3は、AD変換部2からの音声
データについて、適当なフレームごとに音響処理を施
し、これにより、例えば、MFCC(Mel Frequency Cep
strumCoefficient)等の特徴量を抽出し、マッチング部
4に供給する。なお、特徴抽出部3では、その他、例え
ば、スペクトルや、線形予測係数、ケプストラム係数、
線スペクトル対等の特徴量を抽出することが可能であ
る。
【0005】マッチング部4は、特徴抽出部3からの特
徴量を用いて、音響モデルデータベース5、辞書データ
ベース6、および文法データベース7を必要に応じて参
照しながら、マイク1に入力された音声(入力音声)
を、例えば、連続分布HMM法等に基づいて音声認識す
る。
【0006】即ち、音響モデルデータベース5は、音声
認識する音声の言語における個々の音素や音節などの音
響的な特徴を表す音響モデルを記憶している。ここで
は、連続分布HMM法に基づいて音声認識を行うので、
音響モデルとしては、例えば、HMM(Hidden Markov M
odel)が用いられる。辞書データベース6は、認識対象
の各単語(語彙)について、その発音に関する情報(音
韻情報)が記述された単語辞書を記憶している。文法デ
ータベース7は、辞書データベース6の単語辞書に登録
されている各単語が、どのように連鎖する(つながる)
か等を記述した文法規則(言語モデル)を記憶してい
る。ここで、文法規則としては、例えば、文脈自由文法
(CFG)や、統計的な単語連鎖確率(N−gram)
などに基づく規則を用いることができる。
【0007】マッチング部4は、辞書データベース6の
単語辞書を参照することにより、音響モデルデータベー
ス5に記憶されている音響モデルを接続し、単語の音響
モデル(単語モデル)を構成する。さらに、マッチング
部4は、幾つかの単語モデルを、文法データベース7に
記憶された文法規則を参照することにより接続し、その
ようにして接続された単語モデルを用いて、特徴量に基
づき、連続分布HMM法によって、マイク1に入力され
た音声を認識する。即ち、マッチング部4は、特徴抽出
部3が出力する時系列の特徴量が観測されるスコア(尤
度)が最も高い単語モデルの系列を検出し、その単語モ
デルの系列に対応する単語列を、音声の認識結果として
出力する。
【0008】つまり、マッチング部4は、接続された単
語モデルに対応する単語列について、特徴抽出部3から
の特徴量の系列の出現確率を累積し、その累積値をスコ
アとして、そのスコアを最も高くする単語列を、音声認
識結果として出力する。
【0009】スコア計算は、一般に、音響モデルデータ
ベース5に記憶された音響モデルによって与えられる音
響的なスコア(以下、適宜、音響スコアという)と、文
法データベース7に記憶された文法規則によって与えら
れる言語的なスコア(以下、適宜、言語スコアという)
とを総合評価することで行われる。
【0010】即ち、音響スコアは、例えば、HMM法に
よる場合には、単語モデルを構成する音響モデルから、
特徴抽出部3が出力する特徴量の系列が観測される確率
(出現する確率)に基づいて、単語ごとに計算される。
また、言語スコアは、例えば、バイグラムによる場合に
は、注目している単語と、その単語の直前の単語とが連
鎖(連接)する確率に基づいて求められる。そして、各
単語についての音響スコアと言語スコアとを総合評価し
て得られる最終的なスコア(以下、適宜、最終スコアと
いう)に基づいて、音声認識結果が確定される。
【0011】具体的には、あるN個の単語からなる単語
列におけるk番目の単語をwkとして、その単語wkの音
響スコアをA(wk)と、言語スコアをL(wk)と、そ
れぞれ表すとき、その単語列の最終スコアSは、例え
ば、次式にしたがって計算される。
【0012】 S=Σ(A(wk)+Ck×L(wk)) ・・・(1) 但し、Σは、kを1からNに変えてのサメーションをと
ることを表す。また、C kは、単語wkの言語スコアL
(wk)にかける重みを表す。
【0013】マッチング部4では、例えば、式(1)に
示す最終スコアを最も大きくするNと、単語列w1
2,・・・,wNを求めるマッチング処理が行われ、そ
の単語列w1,w2,・・・,wNが、音声認識結果とし
て出力される。
【0014】以上のような処理が行われることにより、
図1の音声認識装置では、例えば、ユーザが、「私は東
京に行く」と発話した場合には、「私」、「は」、「東
京」、「に」、「行く」といった各単語に、音響スコア
および言語スコアが与えられ、それらを総合評価して得
られる最終スコアが最も大きいときに、単語列「私」、
「は」、「東京」、「に」、「行く」が、音声認識結果
として出力される。
【0015】図2は、図1の辞書データベース6に記憶
された単語辞書の例を示している。
【0016】同図に示すように、単語辞書には、単語の
表記と、その単語の音韻情報との組み合わせが登録され
ており、マッチング部4は、上述したように、単語辞書
の音韻情報にしたがって、音響モデルを接続することに
より、単語モデルを構成する。
【0017】図3は、図1の文法データベース7に記憶
された文法規則の例を示している。
【0018】即ち、図3は、単語辞書に、図2に示した
ような単語が登録されている場合の文法規則を示してお
り、図3(A)は、ユニグラムに基づく文法規則を、図
3(B)は、バイグラムに基づく文法規則を、それぞれ
示している。
【0019】図3(A)のユニグラムに基づく文法規則
においては、単語辞書に登録されている単語それぞれに
対して、その単語の統計的な出現確率が、言語スコアと
して与えられている。また、図3(B)のバイグラムに
基づく文法規則においては、単語辞書に登録されている
単語のうちの任意の2つの単語からなる単語列に対し
て、その2つの単語が連鎖する統計的な確率が、言語ス
コアとして与えられている。
【0020】なお、図3においては(後述する図5およ
び図7においても同様)、言語スコアは、確率そのもの
ではなく、確率の対数をとった値で与えられている。こ
れは、単語列全体のスコアを、各単語のスコアの積では
なく、和によって計算することができるようにするため
である。
【0021】ところで、図2に示した単語辞書には、
「私」、「は」、「佐藤」、「東京」、「です」、
「に」、「行く」の7単語が登録されているが、これら
の7単語を用いて構成しうる7単語の並びは、77通り
存在する。従って、単純には、マッチング部4では、こ
の77通りの単語列を評価し、その中から、ユーザの発
話に最も適合するもの(最終スコアを最も大きくするも
の)を決定しなければならない。そして、単語辞書に登
録する単語数が増えれば、その単語数分の単語の並びの
数は、単語数の単語数乗通りになるから、評価の対象と
しなければならない単語列は、膨大な数となる。
【0022】さらに、一般には、発話中に含まれる単語
の数は未知であるから、7単語の並びからなる単語列だ
けでなく、1単語、2単語、・・・からなる単語列も、
評価の対象とする必要がある。従って、評価すべき単語
列の数は、さらに膨大なものとなるから、そのような膨
大な単語列の中から、音声認識結果として最も確からし
いものを、計算量および使用するメモリ容量の観点から
効率的に決定することは、非常に重要な問題である。
【0023】そこで、マッチング部4は、一般には、例
えば、音響スコアを求める過程において、その途中で得
られる音響スコアが所定の閾値以下となった場合に、そ
のスコア計算を打ち切るという音響的な枝刈りや、言語
スコアに基づいて、スコア計算の対象とする単語を絞り
込む言語的な枝刈りを行いながら、音声認識結果となり
得る単語列の候補(以下、適宜、単語仮説という)得る
ようにすることで、計算量およびメモリ容量の効率化を
図るようになっている。
【0024】そして、マッチング部4は、以上のような
枝刈りによって残った単語仮説の中から、最終スコアが
最も大きいものを、音声認識結果として出力する。
【0025】図4は、マッチング部4が枝刈りをしなが
ら作成する単語仮説を、グラフ構造を用いて示してい
る。
【0026】図4において、単語仮説としてのグラフ構
造は、単語を表すアーク(図4において、○印どうしを
結ぶ線分で示す部分)と、単語どうしの境界を表すノー
ド(図4において○印で示す部分)とから構成されてい
る。
【0027】ノードは、時刻情報を有しており、この時
刻情報は、そのノードに対応する特徴量の抽出時刻を表
す。ここで、特徴量の抽出時刻とは、音声認識対象の音
声の音声区間の開始時刻を、例えば0とする、特徴抽出
部3が出力する特徴量が得られた時刻を表し、従って、
図4において、音声区間の開始、即ち、最初の単語の先
頭に対応するノードnode1が有する時刻情報は0とな
る。ノードは、アークの始端および終端となるが、始端
のノード(始端ノード)、または終端のノード(終端ノ
ード)が有する時刻情報は、それぞれ、そのアークに対
応する単語の発話の開始時刻、または終了時刻となる。
【0028】なお、図4では、左から右方向が、時間の
経過を表しており、従って、あるアークの左右にあるノ
ードのうち、左側のノードが始端ノードとなり、右側の
ノードが終端ノードとなる。
【0029】アークは、そのアークに対応する単語の音
響スコアおよび言語スコアを有しており、このアーク
が、終端ノードとなっているノードを始端ノードとし
て、順次接続されていくことにより、音声認識結果の候
補となる単語の系列(単語仮説)が構成されていく。
【0030】即ち、マッチング部4においては、まず最
初に、音声区間の開始を表すノードnode1に対して、音
声認識結果として確からしい単語に対応するアークが接
続される。図4では、「私」に対応するアークarc1が、
ノードnode1に接続されている。なお、音声認識結果と
して確からしい単語かどうかは、マッチング部4におい
て求められる音響スコアおよび言語スコアに基づいて決
定される。
【0031】そして、以下、同様にして、「私」に対応
するアークarc1の終端である終端ノードnode2に対し
て、同様に、確からしい単語に対応するアークが接続さ
れていく。
【0032】以上のようにしてアークが接続されていく
ことで、音声区間の開始を始点として、左から右方向
に、アークとノードで構成される1以上のパスが構成さ
れて行くが、例えば、そのパスのすべてが、音声区間の
最後(図4では、時刻T)に到達すると、制御部11に
おいて、音声区間の開始から最後までに形成された各パ
スについて、そのパスを構成するアークが有している音
響スコアおよび言語スコアが累積され、最終スコアが求
められる。そして、例えば、その最終スコアが最も高い
パスを構成するアークに対応する単語列が、音声認識結
果として確定されて出力される。
【0033】即ち、図4においては(後述する図11に
おいても同様)、単語の音響スコアxと言語スコアy
を、その単語に対応するアークの部分に、A=xとL=yの
形で、それぞれ示してあり、また、ノードnode1から
「私」に対応するアークarc1、ノードnode2、「は」に
対応するアークarc2、ノードnode3、「東京」に対応す
るアークarc3、ノードnode4、「に」に対応するアークa
rc4、ノードnode5、「行く」に対応するアークarc5、お
よびノードnode6で構成される第1のパスと、ノードnod
e1から「私」に対応するアークarc1、ノードnode2
「は」に対応するアークarc2、ノードnode3、「佐藤」
に対応するアークarc6、ノードnode7、「です」に対応
するアークarc7、およびノードnode8で構成される第2
のパスの2つが得られている。
【0034】この場合、第1と第2のパスそれぞれにつ
いて、式(1)における重みCkを、例えば1として計
算される最終スコアは、次のようになる。
【0035】即ち、この場合、最終スコアは、パスを構
成するアークに対応する各単語の音響スコアと言語スコ
アとの合計になるから、図4において、第1のパスにつ
いての最終スコアは、-15(=(-1-1)+(-1.5-1)+(-1.5-3)+
(-2-1)+(-1.5-1.5))となり、第2のパスについての最終
スコアは-21(=(-1-1)+(-1.5-1)+(-4-3)+(-2-1)+(-4.5-
2))となる。
【0036】従って、図4の単語仮説においては、第1
のパスについての最終スコアが最も大きいから、第1の
パスに対応する単語列「私」、「は」、「東京」、
「に」、「行く」が、音声認識結果として確定される。
【0037】なお、図4に示した単語仮説としてのパス
を構成していく過程において、音声区間の先頭のノード
から、音声区間の最後にまで到達していないノードまで
の間に構成されたパスについて、そのスコア(例えば、
音響スコア、言語スコア、または両者の和)から、音声
認識結果として不適当であることが判定された場合に
は、そのパスについては、その時点で、パスの構成が打
ち切られる(その後に、アークが接続されない)が、こ
れが、上述の枝刈りである。
【0038】また、図4においては、文法規則として、
例えば、バイグラムを用いることとして、図3(B)に
示したバイグラムから得られる言語スコアを示してあ
る。
【0039】即ち、例えば、図4におけるアークark3
対応する単語「東京」に注目した場合、その直前の単語
は、「は」であり、図3(B)のバイグラムを参照する
と、単語「は」と「東京」が(その順で)連鎖する場合
の言語スコアは、-3となっており、この-3が、アークar
k3に対し、言語スコアとして与えられている。
【0040】ここで、図4における音声区間の先頭のア
ークarc1に対応する単語「私」については、その直前の
単語が存在しないため、この場合には、例えば、図3
(A)に示したユニグラムによって言語スコアが与えら
れる。図3(A)において、単語「私」には、-1の言語
スコアが与えられており、図4の単語「私」に対応する
アークarc1には、この-1が言語スコアとして与えられて
いる。
【0041】
【発明が解決しようとする課題】ところで、ユーザが発
話する単語は、例えば、音声認識装置の用途やユーザご
とに異なることが多く、また、辞書データベース6の記
憶容量には限りがあり、さらに、マッチング部4の処理
速度を維持する必要もあること等から、辞書データベー
ス6の単語辞書には、例えば、一般的に使用頻度の高い
単語等の一定数の単語を登録しておき、その後、ユーザ
の要求等に応じて、単語辞書に登録されていない単語で
ある未知語を、単語辞書に登録することが行われる場合
がある。
【0042】単語辞書に、未知語を登録する場合、ユー
ザには、例えば、その未知語の表記と音韻情報を与えて
もらえば良いので、単語辞書への未知語の登録について
は、それほど大きな問題は生じない。
【0043】しかしながら、単語辞書に未知語を登録す
る場合、その未知語、即ち、単語辞書に新たに登録され
た単語(以下、適宜、新登録単語という)に対する文法
規則をどうするかが問題となる。
【0044】即ち、文法規則として、上述したようなユ
ニグラムやバイグラムを採用する場合、このユニグラム
やバイグラムは、単語の出現確率や、単語どうしの連鎖
確率を、大量のデータを用いて、事前に学習を行うこと
により求められるものであるから、音声認識装置では、
新登録単語については、その出現確率や他の単語との連
鎖確率を認識することができない。
【0045】そこで、新登録単語が属する専用のカテゴ
リ<UNKNOWN>を用意し、例えば、図5に示すように、そ
のカテゴリ<UNKNOWN>を用いて、ユニグラムやバイグラ
ムに基づく文法規則を記述しておく方法がある。
【0046】即ち、図5(A)は、カテゴリ<UNKNOWN>
を用いた、ユニグラムに基づく文法規則を表しており、
カテゴリ<UNKNOWN>に属する単語の出現確率から得られ
る言語スコアとして、-7が与えられている。
【0047】また、図5(B)は、カテゴリ<UNKNOWN>
を用いた、バイグラムに基づく文法規則を表しており、
単語「は」とカテゴリ<UNKNOWN>に属する単語の連鎖確
率から得られる言語スコアとして、-5が与えられてい
る。また、図5(B)では、カテゴリ<UNKNOWN>に属す
る単語と単語「です」の連鎖確率から得られる言語スコ
アとして、-7が与えられており、カテゴリ<UNKNOWN>に
属する単語と単語「に」の連鎖確率から得られる言語ス
コアとして、-7.5が与えられている。
【0048】なお、図5(A)と図5(B)の文法規則
は、図3(A)と図3(B)の文法規則に、カテゴリ<U
NKNOWN>に属する単語に関する文法規則を加えたものと
なっている。
【0049】例えば、いま、図2の単語辞書に登録され
ていない未知語である「鈴木」が、単語辞書に新たに登
録され、即ち、「鈴木」の表記と音韻情報が単語辞書に
登録され、単語「私」、「は」、「鈴木」、「です」か
らなる発話「私は鈴木です」がされたとすると、新登録
単語「鈴木」の音響スコアは、その音韻情報にしたがっ
て、音響モデルデータベース5に記憶された音響モデル
を接続し、新登録単語「鈴木」に対応する単語モデルを
構成することによって計算されることになる。
【0050】また、単語「鈴木」についての言語スコア
は、単語「鈴木」が新登録単語であるから、図5に示し
た文法規則における新登録単語のカテゴリ<UNKNOWN>に
属する単語に与えられている言語スコアによって計算さ
れる。
【0051】即ち、いまの場合、単語「は」と新登録単
語「鈴木」との連鎖に対する言語スコアとしては、図5
(B)のバイグラムによって、単語「は」と新登録単語
のカテゴリ<UNKNOWN>に属する単語に与えられている-5
が用いられ、また、新登録単語「鈴木」と単語「です」
との連鎖に対する言語スコアとしては、図5(B)のバ
イグラムによって、新登録単語のカテゴリ<UNKNOWN>に
属する単語と単語「です」に与えられている-7が用いら
れる。
【0052】従って、上述の方法によれば、新登録単語
については、すべて、カテゴリ<UNKNOWN>に属する単語
に与えられている言語スコアが用いられることになるた
め、新登録単語を含む発話について、適切な言語スコア
を得ることができないことがあった。
【0053】即ち、例えば、いま、上述の単語「鈴木」
の他に、単語「ニューヨーク」も新登録単語として、単
語辞書に登録され、音声認識装置のマッチング部4にお
いて、「私は鈴木です」と「私はニューヨークです」の
2つの単語仮説が得られたとする。この場合、2つの単
語仮説それぞれを構成する単語のうち、新登録単語「鈴
木」と「ニューヨーク」を除く単語「私」、「は」、お
よび「です」は、同一であり、さらに、順番(並び)も
一致している。そして、言語スコアの計算にあたって
は、新登録単語「鈴木」と「ニューヨーク」は、いずれ
も、新登録単語のカテゴリ<UNKNOWN>に属する単語とし
て、同一に扱われる。
【0054】従って、2つの単語仮説「私は鈴木です」
と「私はニューヨークです」に対しては、同一の言語ス
コアが与えられることになる。
【0055】しかしながら、上述の2つの単語仮説のう
ち、「私は鈴木です」は意味的に問題ないが、「私はニ
ューヨークです」は意味的におかしく、意味的に問題な
い「私は鈴木です」と、意味的に問題がある「私はニュ
ーヨークです」に対して、同一の言語スコアが与えられ
るのは、言語的な評価がまったくされていないことにな
り、その結果、音声認識精度が劣化することになる。特
に、新登録単語が音響的に類似している場合には、音声
認識精度の劣化が著しくなると予想される。
【0056】そこで、新登録単語について、1つの専用
のカテゴリだけでなく、複数のカテゴリを用意してお
き、その複数のカテゴリを用いて、ユニグラムやバイグ
ラムに基づく文法規則を記述しておく方法が考えられ
る。
【0057】即ち、例えば、<地名>や<人名>といったカ
テゴリを複数用意しておき、新登録単語については、単
語辞書への登録時に、その新登録単語が、複数のカテゴ
リのうちのいずれに属するのかを、ユーザに指定しても
らう方法が考えられる。
【0058】この場合、上述の新登録単語「鈴木」と
「ニューヨーク」が、それぞれ、カテゴリ<人名>と<地
名>に属することが指定されれば、新登録単語につい
て、適切な言語的な評価が行われ、音声認識精度の劣化
を防止することができることになる。
【0059】しかしながら、この場合、ユーザは、新登
録単語が、複数用意されているカテゴリのうちのいずれ
に属するかを判断しなければならず、その判断を誤る
と、正確な言語的評価が行われないこととなり、音声認
識精度の劣化を招くことになる。
【0060】即ち、新登録単語が、上述したような<地
名>や<人名>などを表すものである場合には、新登録単
語が属するカテゴリの判断も比較的容易であるが、新登
録単語が、例えば、抽象的な概念を表す場合には、その
新登録単語がいずれのカテゴリに属するかをユーザが判
断するのは、非常に困難である。
【0061】また、カテゴリを細分化し、多数のカテゴ
リを用意しておけば、新登録単語について、より精密な
言語的評価が可能となるが、カテゴリが多数存在する場
合には、その多数のカテゴリの中から、新登録単語が属
するカテゴリをユーザが判断するのは、さらに困難であ
り、また、ユーザに大きな負担をかけることになる。
【0062】本発明は、このような状況に鑑みてなされ
たものであり、新登録単語のカテゴリを推定し、これに
より、新登録単語を含む発話であっても、適切な言語的
評価を行って、精度の高い音声認識を行うことができる
ようにするものである。
【0063】
【課題を解決するための手段】本発明の自然言語処理装
置は、辞書に登録された、そのカテゴリが未定の語彙で
あるカテゴリ未定語彙が、音声認識結果に含まれるか否
かを判定する判定手段と、文法規則に定義されている複
数のカテゴリの中から、カテゴリ未定語彙のカテゴリ
を、そのカテゴリ未定語彙を含む音声認識結果に基づい
て推定する推定手段とを備えることを特徴とする。
【0064】本発明の自然言語処理方法は、辞書に登録
された、そのカテゴリが未定の語彙であるカテゴリ未定
語彙が、音声認識結果に含まれるか否かを判定する判定
ステップと、文法規則に定義されている複数のカテゴリ
の中から、カテゴリ未定語彙のカテゴリを、そのカテゴ
リ未定語彙を含む音声認識結果に基づいて推定する推定
ステップとを備えることを特徴とする。
【0065】本発明の記録媒体は、辞書に登録された、
そのカテゴリが未定の語彙であるカテゴリ未定語彙が、
音声認識結果に含まれるか否かを判定する判定ステップ
と、文法規則に定義されている複数のカテゴリの中か
ら、カテゴリ未定語彙のカテゴリを、そのカテゴリ未定
語彙を含む音声認識結果に基づいて推定する推定ステッ
プとを備えるプログラムが記録されていることを特徴と
する。
【0066】本発明の自然言語処理装置および自然言語
処理方法、並びに記録媒体においては、辞書に登録され
た、そのカテゴリが未定の語彙であるカテゴリ未定語彙
が、音声認識結果に含まれるか否かが判定され、文法規
則に定義されている複数のカテゴリの中から、カテゴリ
未定語彙のカテゴリが、そのカテゴリ未定語彙を含む音
声認識結果に基づいて推定される。
【0067】
【発明の実施の形態】図6は、本発明を適用した音声認
識装置の一実施の形態の構成例を示している。なお、図
中、図1における場合と対応する部分については、同一
の符号を付してあり、以下では、その説明は、適宜省略
する。即ち、図6の音声認識装置は、未知語登録部8お
よびカテゴリ推定部9が新たに設けられている他は、図
1における場合と、基本的に同様に構成されている。
【0068】未知語登録部8は、例えば、キーボード等
の操作部を有し、ユーザが未知語を、辞書データベース
6の単語辞書に対して、新登録単語として登録するとき
に操作される。即ち、未知語登録部8は、ユーザによっ
て、未知語の表記と音韻情報が入力されると、その表記
と音韻情報を、辞書データベース6の単語辞書に登録す
る。
【0069】カテゴリ推定部9は、辞書データベース6
の単語辞書に新たに登録された単語である新登録単語で
あって、そのカテゴリが未定のもの(以下、適宜、カテ
ゴリ未定単語という)が、マッチング部4が出力する音
声認識結果に含まれるかどうかを判定し、含まれる場合
には、そのカテゴリ未定単語のカテゴリを、そのカテゴ
リ未定単語を含む音声認識結果に基づいて推定する。
【0070】即ち、カテゴリ推定部9は、マッチング部
4が出力する最も尤度の高い音声認識結果を構成する単
語について、文法データベース7の文法規則に基づいて
得られる言語スコアに基づき、マッチング部4からの音
声認識結果に含まれるカテゴリ未定単語のカテゴリを推
定する。
【0071】具体的には、カテゴリ推定部9は、文法規
則に定義されている複数のカテゴリのうち、マッチング
部4の音声認識結果の言語スコアを最大にするものを、
その音声認識結果に含まれるカテゴリ未定単語のカテゴ
リとして推定する。
【0072】従って、図6の実施の形態では、文法デー
タベース7に登録されている文法規則には、複数のカテ
ゴリが定義されており、文法規則は、その複数のカテゴ
リを用いて記述されている。
【0073】即ち、図7は、図6の文法データベース7
に登録されている文法規則の例を示している。
【0074】図7の文法規則は、前述した図3の文法規
則に対して、カテゴリが不明なことを表すカテゴリ<UNK
NOWN>、場所を表すカテゴリ<Place>、および人名を表す
カテゴリ<Name>の3つのカテゴリに関する文法規則を加
えたものとなっている。
【0075】即ち、図7(A)は、辞書データベース6
の単語辞書に、前述の図2に示したような単語が登録さ
れている場合のユニグラムに基づく文法規則を示してお
り、図3(A)のユニグラムに基づく文法規則に対し
て、カテゴリ<UNKNOWN>,<Place>,<Name>それぞれに属
する単語に関する文法規則を加えたものとなっている。
【0076】また、図7(B)は、辞書データベース6
の単語辞書に、前述の図2に示したような単語が登録さ
れている場合のバイグラムに基づく文法規則を示してお
り、図3(B)のバイグラムに基づく文法規則に対し
て、カテゴリ<UNKNOWN>,<Place>,<Name>それぞれに属
する単語に関する文法規則を加えたものとなっている。
【0077】以上のように、図6の文法データベース7
の文法規則は、複数のカテゴリ(ここでは、カテゴリ<U
NKNOWN>,<Place>,<Name>)を用いて記述されている。
【0078】図6に戻り、カテゴリ推定部9は、マッチ
ング部4が出力する音声認識結果に、カテゴリ未定単語
が含まれている場合、そのカテゴリ未定単語のカテゴリ
が、文法規則に定義されている複数のカテゴリのいずれ
かであると仮定して、その仮定したカテゴリについて、
音声認識結果の言語スコアを計算する。さらに、カテゴ
リ推定部9は、文法規則に定義されている複数のカテゴ
リのうちの他のカテゴリについても、同様に、音声認識
結果の言語スコアを計算し、その言語スコアを最大にす
るカテゴリを、音声認識結果に含まれるカテゴリ未定単
語のカテゴリとして推定する。
【0079】そして、カテゴリ推定部9は、その推定し
たカテゴリを、辞書データベース6に供給し、単語辞書
のカテゴリ未定単語に対応付ける。
【0080】なお、カテゴリ推定部9は、スコアメモリ
9Aを内蔵しており、スコアメモリ9は、上述したよう
に、カテゴリ推定部9が、カテゴリ未定単語のカテゴリ
を仮定して計算する音声認識結果の言語スコアを、必要
に応じて、一時記憶する。
【0081】以上のように構成される図6の音声認識装
置においては、辞書データベース6の単語辞書に登録さ
れていない未知語を、ユーザが、新登録単語として登録
することができるようになっている。
【0082】そこで、図8のフローチャートを参照し
て、図6の音声認識装置において、単語辞書に新登録単
語を登録する登録処理について説明する。
【0083】ユーザが、未知語登録部8を操作して、単
語の表記と音韻情報を入力すると、登録処理が開始さ
れ、登録処理では、まず最初に、ステップS1におい
て、未知語登録部8が、辞書データベース6の単語辞書
を参照することにより、ユーザが入力した単語(以下、
適宜、入力単語という)が、単語辞書に登録されていな
いかどうか、即ち、未知語であるかどうかを判定する。
ステップS1において、入力単語が、未知語でないと判
定された場合、即ち、入力単語が、単語辞書に、既に、
登録されている場合、その入力単語を重複して単語辞書
に登録する必要はないため、ステップS2およびS3を
スキップして、登録処理を終了する。
【0084】また、ステップS1において、入力単語
が、未知語であると判定された場合、ステップS2に進
み、未知語登録部8は、単語辞書に、入力単語の表記と
音韻情報を、新登録単語の表記と音韻情報として登録す
る。さらに、未知語登録部8は、新登録単語としての入
力単語に、デフォルトのカテゴリとして、例えば、カテ
ゴリ<UNKNOWN>を対応付け、これも単語辞書に登録す
る。そして、ステップS3に進み、未知語登録部8は、
ステップS2で単語辞書に登録した新登録単語に、その
カテゴリがまだ推定されていないことを表すカテゴリ未
定フラグを付加し、登録処理を終了する。
【0085】次に、図9のフローチャートを参照して、
図6の音声認識装置による音声認識処理について説明す
る。
【0086】ユーザが発話を行うと、ステップS11に
おいて、そのユーザの音声は、マイク1、AD変換部
2、特徴抽出部3、およびマッチング部4で音声認識さ
れる。
【0087】即ち、ユーザの音声は、マイク1、AD変
換部2、および特徴抽出部3で、前述したように処理さ
れ、その処理によって得られる特徴量が、所定のフレー
ムごとに、マッチング部4に供給される。
【0088】マッチング部4は、特徴抽出部3からの特
徴量を用いて、音響モデルデータベース5、辞書データ
ベース6、および文法データベース7を必要に応じて参
照しながら、ユーザの音声を、連続分布HMM法等に基
づいてマッチング処理する。
【0089】即ち、マッチング部4は、辞書データベー
ス6の単語辞書を参照することにより、音響モデルデー
タベース5に記憶されている音響モデルを接続すること
で、単語の音響モデル(単語モデル)を構成する。さら
に、マッチング部4は、幾つかの単語モデルを、文法デ
ータベース7に記憶された文法規則を参照することによ
り、言語スコアを計算しながら接続し、そのようにして
接続された単語モデルを用いて、特徴量に基づき、連続
分布HMM法によって、音響スコアを計算する。マッチ
ング部4は、以上のようにして言語スコアおよび音響ス
コアを計算しながら、図4で説明したような、音声認識
結果の候補となる単語仮説を構成していき、例えば、言
語スコアと単語スコアから、式(1)にしたがって計算
される最終スコアの最大値を与える単語仮説を、音声認
識結果として確定する。
【0090】マッチング部4は、音声認識結果を確定す
ると、ステップS12に進み、その音声認識結果を出力
する。
【0091】そして、カテゴリ推定部9は、マッチング
部4が出力する音声認識結果を受信し、ステップS13
において、その音声認識結果に、カテゴリ未定単語が含
まれるかどうかを判定する。即ち、カテゴリ推定部9
は、音声認識結果を構成する各単語を、辞書データベー
ス6の単語辞書から検索し、その単語にカテゴリ未定フ
ラグが付加されているかどうかを検出することによっ
て、音声認識結果に、カテゴリ未定単語が含まれるかど
うかを判定する。
【0092】ステップS13において、音声認識結果
に、カテゴリ未定単語が含まれると判定された場合、ス
テップS14に進み、カテゴリ推定部9は、後述するカ
テゴリ推定処理を行うことにより、音声認識結果に含ま
れるカテゴリ未定単語のカテゴリを推定し、ステップS
15に進む。
【0093】また、ステップS13において、音声認識
結果に、カテゴリ未定単語が含まれないと判定された場
合、ステップS14をスキップして、ステップS15に
進み、音声認識処理を終了するかどうかが判定される。
【0094】ステップ15において、音声認識処理を終
了しないと判定された場合、即ち、例えば、ユーザが、
次の発話を行った場合、ステップS11に戻り、その発
話について、以下、同様の処理が繰り返される。
【0095】また、ステップS15において、音声認識
処理を終了すると判定された場合、即ち、例えば、ユー
ザが、次の発話を行わなかった場合、処理を終了する。
【0096】次に、図10のフローチャートを参照し
て、図9のステップS14におけるカテゴリ推定処理に
ついて説明する。
【0097】まず最初に、ステップS21において、カ
テゴリ推定部9は、文法データベース7の文法規則に定
義されているカテゴリのうち、デフォルトのカテゴリ<U
NKNOWN>を除くすべてのカテゴリを認識する。従って、
文法規則が、図7に示したものである場合には、ステッ
プS21において、カテゴリ<Place>と<Name>が認識さ
れる。
【0098】その後、ステップS22に進み、カテゴリ
推定部9は、音声認識結果に含まれるカテゴリ未定単語
を認識し、ステップS23に進む。
【0099】ステップS23では、カテゴリ推定部9
は、その内蔵するスコアメモリ9Aを初期化する。即
ち、本実施の形態では、カテゴリ未定単語のカテゴリ
は、上述したように、デフォルトで、<UNKNOWN>に設定
されるが、ステップS23では、カテゴリ推定部9は、
例えば、音声認識結果に含まれるカテゴリ未定単語のカ
テゴリを、このデフォルトのカテゴリ<UNKNOWN>とし
て、音声認識結果の言語スコア(例えば、音声認識結果
を構成する各単語の言語スコアの総和)を計算し、この
言語スコアと、その言語スコアが得られたときのカテゴ
リ未定単語に設定されていたカテゴリ<UNKNOWN>を、ス
コアメモリ9に記憶させることによって、その初期化を
行う。
【0100】なお、この場合、スコアメモリ9Aに記憶
される音声認識結果の言語スコアは、その音声認識結果
について、マッチング部4で計算された言語スコアと一
致することになる。
【0101】ステップS23でスコアメモリ9Aが初期
化されると、ステップS24に進み、カテゴリ推定部9
は、音声認識結果に含まれるカテゴリ未定単語に、ステ
ップS21で認識した、文法規則に定義されている複数
のカテゴリのうちのいずれかを割り当てる。なお、音声
認識結果に、複数のカテゴリ未定単語が含まれる場合に
は、その複数のカテゴリ未定単語それぞれに対して、独
立に、文法規則に定義されている複数のカテゴリのうち
のいずれかが割り当てられる。
【0102】そして、カテゴリ推定部9は、ステップS
25において、直前のステップS24で各カテゴリ未定
単語に割り当てたカテゴリが、そのカテゴリ未定単語の
カテゴリであると仮定して、文法データベース7の文法
規則を参照することにより、音声認識結果の言語スコア
を計算し、ステップS26に進む。
【0103】ステップS26では、カテゴリ推定部9
は、直前のステップS25で求めた言語スコアと、スコ
アメモリ9Aに記憶されている言語スコアとを比較し、
直前のステップS25で求めた言語スコアが、スコアメ
モリ9Aに記憶されている言語スコアよりも大であるか
どうかを判定する。
【0104】ステップS26において、直前のステップ
S25で求めた言語スコアが、スコアメモリ9Aに記憶
されている言語スコアよりも大でないと判定された場
合、即ち、直前のステップS24でカテゴリ未定単語に
割り当てたカテゴリによって得られる音声認識結果の言
語的な確からしさよりも、スコアメモリ9Aに記憶され
た言語スコアが得られたときにカテゴリ未定単語に割り
当てられたカテゴリによって得られる音声認識結果の言
語的な確からしさの方が大の場合、ステップS27およ
びS28をスキップして、ステップS29に進む。
【0105】ステップS29では、カテゴリ推定部9
は、音声認識結果に含まれるカテゴリ未定単語に対し
て、文法規則に定義されている複数のカテゴリのすべて
を割り当てて、ステップS25における言語スコアの計
算を行ったかどうかを判定する。なお、音声認識結果
に、複数のカテゴリ未定単語が含まれる場合には、ステ
ップS29では、その複数のカテゴリ未定単語に対し
て、文法規則に定義されている複数のカテゴリを割り当
て得るすべてのパターンの割り当てを行ったかどうかが
判定される。
【0106】ステップS29において、音声認識結果に
含まれるカテゴリ未定単語に対し、文法規則に定義され
ている複数のカテゴリのすべてを、まだ割り当てていな
いと判定された場合、ステップS24に戻り、音声認識
結果に含まれるカテゴリ未定単語に対して、まだ割り当
てられていないカテゴリのうちの1つが割り当てられ、
以下、同様の処理が繰り返される。
【0107】一方、ステップS26において、直前のス
テップS25で求めた言語スコアが、スコアメモリ9A
に記憶されている言語スコアよりも大であると判定され
た場合、即ち、直前のステップS24でカテゴリ未定単
語に割り当てたカテゴリによって得られる音声認識結果
の言語的な確からしさの方が、スコアメモリ9Aに記憶
された言語スコアが得られたときにカテゴリ未定単語に
割り当てられたカテゴリによって得られる音声認識結果
の言語的な確からしさよりも大の場合、ステップS27
に進み、直前のステップS24でカテゴリ未定単語に割
り当てられたカテゴリが、スコアメモリ9Aに、上書き
する形で記憶される。なお、音声認識結果に、複数のカ
テゴリ未定単語が含まれる場合には、上述したように、
その複数のカテゴリ未定単語それぞれに、カテゴリが割
り当てられるが、この場合、ステップS27では、その
複数のカテゴリ未定単語それぞれに割り当てられている
カテゴリが、スコアメモリ9Aに記憶される。
【0108】その後、ステップS28に進み、直前のス
テップS24でカテゴリ未定単語に割り当てたカテゴリ
によって得られる音声認識結果の言語スコア、即ち、直
前のステップS25で計算された言語スコアが、スコア
メモリ9Aに、上書きする形で記憶され、ステップS2
9に進む。
【0109】そして、ステップS29において、音声認
識結果に含まれるカテゴリ未定単語に対して、文法規則
に定義されている複数のカテゴリのすべてを割り当てた
と判定されると、ステップS30に進み、カテゴリ推定
部9は、その内蔵するスコアメモリ9Aに記憶されてい
るカテゴリを、音声認識結果に含まれるカテゴリ未定単
語のカテゴリと推定し、その推定したカテゴリによっ
て、辞書データベース6の単語辞書に登録されている、
カテゴリ未定単語のカテゴリ(いまの場合、<UNKNOWN
>)を書き換える。
【0110】従って、この場合、音声認識結果に含まれ
るカテゴリ未定単語のカテゴリは、文法規則に定義され
ている複数のカテゴリのうち、その音声認識結果の言語
スコアを最大にするものであると推定されるので、カテ
ゴリ未定単語のカテゴリを、精度良く推定することがで
きる。
【0111】ステップS30において、単語辞書のカテ
ゴリ未定単語のカテゴリが書き換えられた後は、ステッ
プS31に進み、カテゴリ推定部9は、そのカテゴリを
書き換えた単語(カテゴリ未定単語であった単語)のカ
テゴリ未定フラグを削除し、カテゴリ推定処理を終了す
る。
【0112】次に、図11を参照して、カテゴリ推定部
9による、図10のフローチャートにしたがったカテゴ
リ推定処理について、さらに説明する。
【0113】いま、例えば、図2に示した単語辞書に登
録されていない「鈴木」が、図8の登録処理によって、
単語辞書に、新登録単語として登録されたとする。さら
に、ユーザにより音声「私は鈴木です」が発話され、マ
ッチング部4において、最終スコアを最大にする音声認
識結果として、単語列「私」、「は」、「鈴木」、「で
す」が得られたとする。
【0114】そして、この音声認識結果としての単語列
を構成する単語「私」、「は」、「鈴木」、「です」そ
れぞれについて、図7に示した文法規則によって言語ス
コアが与えられるとすると、図11(A)に示したよう
な言語スコアが与えられる。
【0115】即ち、単語「私」に対しては、図7(A)
のユニグラムに基づく文法規則によって、言語スコア
「-1」が与えられる。また、単語「は」に対しては、そ
の直前の単語「私」との連鎖が考慮され、図7(B)の
バイグラムに基づく文法規則によって、言語スコア「-
1」が与えられる。
【0116】そして、単語「鈴木」に対しては、その直
前の単語「は」との連鎖が考慮され、言語スコアが与え
られる。
【0117】即ち、いまの場合、単語「鈴木」は、カテ
ゴリ未定単語であり、従って、単語「鈴木」には、デフ
ォルトのカテゴリ<UNKNOWN>が割り当てられている。従
って、単語「鈴木」には、図7(B)のバイグラムに基
づく文法規則を参照することにより、単語「は」とカテ
ゴリ<UNKNOWN>に属する単語との連鎖に対して与えられ
ている言語スコア「-5」が与えられる。
【0118】さらに、単語「です」には、その直前の、
カテゴリ<UNKNOWN>が割り当てられている単語「鈴木」
との連鎖が考慮され、図7(B)のバイグラムに基づく
文法規則を参照することにより、カテゴリ<UNKNOWN>に
属する単語と単語「です」との連鎖に対して与えられて
いる言語スコア「-7」が与えられる。
【0119】従って、単語「鈴木」に、デフォルトのカ
テゴリ<UNKNOWN>が割り当てられている場合には、音声
認識結果の言語スコアとして、-14(=-1-1-5-7)が得られ
る。その結果、図10のステップS23におけるスコア
メモリ9Aの初期化では、カテゴリ<UNKNOWN>と、その
カテゴリをカテゴリ未定単語に割り当てた場合の音声認
識結果の言語スコア「-14」が、スコアメモリ9Aに登
録される。
【0120】図7の文法規則に定義されているカテゴリ
としては、<UNKNOWN>を除けば、<Place>と<Name>の2つ
があるから、図10のステップS24では、その2つの
カテゴリのうちの、例えば、カテゴリ<Name>が、カテゴ
リ未定単語「鈴木」に割り当てられる。
【0121】その結果、音声認識結果としての単語列を
構成する単語「私」、「は」、「鈴木」、「です」それ
ぞれには、図11(B)に示したような言語スコアが与
えられる。
【0122】即ち、単語「私」と「は」については、図
11(A)における場合と同一の言語スコア(「-1」と
「-1」)が与えられる。
【0123】そして、単語「鈴木」については、いまの
場合、そのカテゴリとして<Name>が割り当てられている
から、図7(B)のバイグラムに基づく文法規則を参照
することにより、単語「は」とカテゴリ<Name>に属する
単語との連鎖に対して与えられている言語スコア「-4」
が与えられる。
【0124】さらに、単語「です」には、その直前の、
カテゴリ<Name>が割り当てられている単語「鈴木」との
連鎖が考慮され、図7(B)のバイグラムに基づく文法
規則を参照することにより、カテゴリ<Name>に属する単
語と単語「です」との連鎖に対して与えられている言語
スコア「-2」が与えられる。
【0125】従って、単語「鈴木」に、カテゴリ<Name>
が割り当てられている場合には、音声認識結果の言語ス
コアとして、-8(=-1-1-4-2)が得られる。この言語スコ
ア「-8」は、いま、スコアメモリ9Aに記憶されてい
る、カテゴリ<UNKNOWN>について得られた音声認識結果
の言語スコア「-14」より大きいから、スコアメモリ9
Aの記憶内容は、カテゴリ<Name>と、そのカテゴリ<Nam
e>について得られた音声認識結果の言語スコア「-8」に
書き換えられる。
【0126】そして、図7の文法規則に定義されている
残りのカテゴリ<Place>が、カテゴリ未定単語「鈴木」
に割り当てられ、上述の場合と同様に、音声認識結果の
言語スコアが計算される。
【0127】この場合、音声認識結果としての単語列を
構成する単語「私」、「は」、「鈴木」、「です」それ
ぞれには、図11(C)に示したような言語スコアが与
えられる。
【0128】即ち、単語「私」と「は」については、図
11(A)における場合と同一の言語スコア(「-1」と
「-1」)が与えられる。
【0129】そして、単語「鈴木」については、いまの
場合、そのカテゴリとして<Place>が割り当てられてい
るから、図7(B)のバイグラムに基づく文法規則を参
照することにより、単語「は」とカテゴリ<Place>に属
する単語との連鎖に対して与えられている言語スコア
「-4」が与えられる。
【0130】さらに、単語「です」には、その直前の、
カテゴリ<Place>が割り当てられている単語「鈴木」と
の連鎖が考慮され、図7(B)のバイグラムに基づく文
法規則を参照することにより、カテゴリ<Place>に属す
る単語と単語「です」との連鎖に対して与えられている
言語スコア「-9」が与えられる。
【0131】従って、単語「鈴木」に、カテゴリ<Place
>が割り当てられている場合には、音声認識結果の言語
スコアとして、-15(=-1-1-4-9)が得られる。この言語ス
コア「-15」は、いま、スコアメモリ9Aに記憶されて
いる、カテゴリ<Name>について得られた音声認識結果の
言語スコア「-8」より大きくないから、スコアメモリ9
Aの記憶内容は書き換えられない。
【0132】そして、以上により、文法規則に定義され
たカテゴリすべてに関して、音声認識結果の言語スコア
の計算を終了したから、その後に、スコアメモリ9Aに
記憶されている、人名を表すカテゴリ<Name>が、カテゴ
リ未定単語「鈴木」のカテゴリの推定結果として確定さ
れることになる。
【0133】なお、上述の場合には、カテゴリ未定単語
のカテゴリの推定は一度だけしか行われないが、カテゴ
リ推定部9においては、過去にカテゴリを推定したカテ
ゴリ未定単語について、そのカテゴリを再度推定するよ
うにすることが可能である。
【0134】即ち、既にカテゴリを推定したカテゴリ未
定単語を含む音声認識結果が新たに得られた場合には、
カテゴリ推定部9において、その新たな音声認識結果に
基づいて、その新たな音声認識結果に含まれるカテゴリ
未定単語(性格には、カテゴリ未定単語であった単語)
のカテゴリを再度推定することが可能である。
【0135】さらに、この場合、カテゴリ推定部9にお
いて、カテゴリ未定単語について、過去にカテゴリを推
定したときに用いた音声認識結果(そのカテゴリ未定単
語を含む音声認識結果)を記憶しておき、そのカテゴリ
未定単語を含む新たな音声認識結果が得られた場合に
は、その新たな音声認識結果の他、記憶しておいた過去
の音声認識結果についても、図10のステップS25に
おいて言語スコアを計算し、その言語スコアを最も高く
するカテゴリを、カテゴリ未定単語のカテゴリの推定結
果とすることが可能である。この場合、カテゴリ未定単
語のカテゴリを、より精度良く推定することが可能とな
る。
【0136】また、上述のように、カテゴリ未定単語の
カテゴリを、過去の音声認識結果と新たな音声認識結果
等の複数の音声認識結果に基づいて推定する場合には、
その複数の音声認識結果それぞれから推定されるカテゴ
リ、つまり、複数のカテゴリを、カテゴリ未定単語のカ
テゴリとすることが可能である。
【0137】即ち、例えば、いま、単語「千葉」が、カ
テゴリ未定単語であるとした場合、この単語「千葉」
は、人名(名字)として発話される可能性と、地名(県
名)として発話される可能性がある。具体的には、例え
ば、「私は千葉です」と発話された場合の「千葉」は、
人名であり、「私は千葉に行く」と発話された場合の
「千葉」は、地名である。従って、単語「千葉」のカテ
ゴリについて、人名と地名のいずれか一方に固定して、
言語スコアを計算するよりは、「私は千葉です」と発話
された場合の言語スコアは、単語「千葉」を、人名のカ
テゴリに属するものとして計算する方が、適切な言語的
評価を得ることができ、また、「私は千葉に行く」と発
話された場合の言語スコアは、単語「千葉」を、地名の
カテゴリに属するものとして計算する方が、適切な言語
的評価を得ることができると考えられる。以上から、カ
テゴリ未定単語が、複数のカテゴリをとり得ることを許
可することにより、ユーザの発話について、適切な言語
的評価が可能となり、その結果、音声認識精度をより向
上させることができる。
【0138】また、カテゴリ未定単語が、複数のカテゴ
リに属することを許可する場合には、カテゴリ推定部9
において、そのカテゴリ未定単語が、複数のカテゴリそ
れぞれに属する確率(以下、カテゴリ確率という)を求
めておき、マッチング部4には、カテゴリ未定単語の言
語スコアを、文法規則だけでなく、カテゴリ確率をも用
いて計算させるようにすることが可能である。
【0139】ここで、例えば、上述の単語「千葉」につ
いて言えば、地名のカテゴリに属する場合と、人名のカ
テゴリに属する場合とがあるが、それぞれのカテゴリに
属するカテゴリ確率は、例えば、単語「千葉」が地名の
カテゴリに属するとした場合に言語スコアが最大になる
音声認識結果が得られた回数と、単語「千葉」が人名の
カテゴリに属するとした場合に言語スコアが最大になる
音声認識結果が得られた回数とに基づいて求めることが
可能である。
【0140】即ち、単語「千葉」が地名のカテゴリに属
するとした場合に言語スコアが最大になる音声認識結果
が得られた回数をaと、単語「千葉」が人名のカテゴリ
に属するとした場合に言語スコアが最大になる音声認識
結果が得られた回数をbと、それぞれした場合に、地名
のカテゴリに属するカテゴリ確率Paは、例えば、式a
/(a+b)により、人名のカテゴリに属するカテゴリ
確率Pbは、例えば、式b/(a+b)により、それぞ
れ求めることが可能である。
【0141】また、この場合、単語「千葉」が地名のカ
テゴリに属するとした場合の、その言語スコアをLa
と、単語「千葉」が人名のカテゴリに属するとした場合
の、その言語スコアをLbと、それぞれした場合に、マ
ッチング部4においては、単語「千葉」についての言語
スコアを、例えば、式Pa×La+Pb×Lbによって
計算するようにすることが可能である。
【0142】さらに、図6の音声認識装置には、同図に
おいて点線で示すように、マッチング部4が出力する音
声認識結果を修正するときにユーザによって操作される
修正部10を設けることが可能である。
【0143】この場合、図6の音声認識装置において
は、図12のフローチャートにしたがった音声認識処理
が行われる。
【0144】即ち、この場合、ステップS41とS42
で、図9のステップS11とS12における場合と同様
の処理が行われる。
【0145】そして、ステップS42において、マッチ
ング部4から音声認識結果が出力された後は、ステップ
S43に進み、カテゴリ推定部9は、ユーザが、修正部
10を操作することにより、音声認識結果の修正を行っ
たかどうかを判定する。
【0146】ステップS43において、ユーザが、音声
認識結果の修正を行っていないと判定された場合、ステ
ップS47に進み、以下、ステップS47乃至S49に
おいて、図9のステップS13乃至S15における場合
とそれぞれ同様の処理が行われる。
【0147】また、ステップS43において、ユーザ
が、音声認識結果の修正を行ったと判定された場合、ス
テップS44に進み、カテゴリ推定部9は、ユーザが修
正した音声認識結果に、単語辞書に登録されていない未
知語が含まれるかどうかを判定する。
【0148】ステップS44において、ユーザが修正し
た音声認識結果に、未知語が含まれると判定された場
合、即ち、ユーザにより修正された単語が未知語である
場合、ステップS45に進み、カテゴリ推定部9は、単
語辞書に、その未知語を登録し、さらに、その未知語
に、デフォルトのカテゴリ<UNKNOWN>を対応付けて、ス
テップS46に進む。ステップS46では、カテゴリ推
定部9は、ステップS45で単語辞書に登録した未知
語、つまり、新登録単語に、カテゴリ未定フラグを付加
し、ステップS47に進む。
【0149】一方、ステップS44において、ユーザが
修正した音声認識結果に、未知語が含まれないと判定さ
れた場合、ステップS45およびS46をスキップし
て、ステップS47に進み、以下、上述した場合と同様
の処理が行われる。
【0150】図12の音声認識処理によれば、ユーザが
修正した音声認識結果に基づいて、カテゴリの推定が行
われるので、単語のカテゴリを、より精度良く推定する
ことが可能となる。
【0151】なお、上述の場合には、ユーザによる修正
部10の操作に基づいて、音声認識結果を修正するよう
にしたが、音声認識結果の修正は、その他、ユーザに、
その修正結果となる発話を行ってもらい、その発話に基
づいて行うようにすることも可能である。
【0152】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
【0153】そこで、図13は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。
【0154】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
【0155】あるいはまた、プログラムは、フロッピー
(登録商標)ディスク、CD-ROM(Compact Disc Read Onl
y Memory),MO(Magneto optical)ディスク,DVD(Digita
l Versatile Disc)、磁気ディスク、半導体メモリなど
のリムーバブル記録媒体111に、一時的あるいは永続
的に格納(記録)しておくことができる。このようなリ
ムーバブル記録媒体111は、いわゆるパッケージソフ
トウエアとして提供することができる。
【0156】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部108で受信し、内蔵するハード
ディスク105にインストールすることができる。
【0157】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部107が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)103に格納されているプログラムを実行
する。あるいは、また、CPU102は、ハードディスク
105に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部108で受信されてハー
ドディスク105にインストールされたプログラム、ま
たはドライブ109に装着されたリムーバブル記録媒体
111から読み出されてハードディスク105にインス
トールされたプログラムを、RAM(Random Access Memor
y)104にロードして実行する。これにより、CPU10
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU102は、その処理結果を、必要に応
じて、例えば、入出力インタフェース110を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部106から出力、あるいは、通信部108から
送信、さらには、ハードディスク105に記録等させ
る。
【0158】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
【0159】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
【0160】なお、文法規則には、カテゴリを階層化し
て定義しておくことが可能である。
【0161】また、本実施の形態では、単語のカテゴリ
として、意味的なカテゴリ(単語が地名を表すものであ
るとか、人名を表すものであるとか等)を用いたが、単
語のカテゴリとしては、その他、例えば、品詞、さらに
は、ある尺度によって単語の分類が可能なカテゴリを採
用することが可能である。
【0162】さらに、本実施の形態では、ユーザに、未
知語登録部8を操作してもらうことによって、未知語
を、単語辞書に登録するようにしたが、未知語は、その
他、例えば、音声認識処理中に検出し、単語辞書に登録
するようにすることが可能である。
【0163】また、本実施の形態では、文法規則とし
て、ユニグラムやバイグラムを用いるようにしたが、文
法規則としては、その他、3つの単語の連鎖についての
トライグラムや、4以上の単語の連鎖についての文法規
則を用いることが可能である。そして、より長い連鎖に
ついての文法規則を用いる方が、カテゴリの推定精度を
高くすることができる。
【0164】さらに、本実施の形態では、ヒューリステ
ィック(heuristic)な文法規則である単語連鎖確率(N
−gram)に基づく文法規則を用いるようにしたが、
文法規則としては、その他、例えば、学習用のデータか
ら、所定の尺度に基づいて、単語のカテゴリ分けを行う
方法で作成される文法規則等を採用することも可能であ
る。
【0165】なお、上述した音声認識装置は、例えば、
音声によってデータベースの検索を行う場合や、各種の
機器の操作を行う場合、各機器へのデータ入力を行う場
合、音声対話システム等に適用可能である。より具体的
には、例えば、音声による地名の問合せに対して、対応
する地図情報を表示するデータベース検索装置や、音声
による命令に対して、荷物の仕分けを行う産業用ロボッ
ト、キーボードの代わりに音声入力によりテキスト作成
を行うディクテーションシステム、ユーザとの会話を行
うロボットにおける対話システム等に適用可能である。
【0166】
【発明の効果】本発明の自然言語処理装置および自然言
語処理方法、並びに記録媒体によれば、辞書に登録され
た、そのカテゴリが未定の語彙であるカテゴリ未定語彙
が、音声認識結果に含まれるか否かが判定され、文法規
則に定義されている複数のカテゴリの中から、カテゴリ
未定語彙のカテゴリが、そのカテゴリ未定語彙を含む音
声認識結果に基づいて推定される。従って、カテゴリ未
定語彙のカテゴリを精度良く推定することが可能とな
り、これにより、辞書に新たに登録された単語を含む発
話であっても、適切な言語的評価を行って、精度の高い
音声認識を行うことが可能となる。
【図面の簡単な説明】
【図1】従来の音声認識装置の一例の構成を示すブロッ
ク図である。
【図2】単語辞書を示す図である。
【図3】文法規則を示す図である。
【図4】単語仮説を表すグラフ構造を示す図である。
【図5】文法規則を示す図である。
【図6】本発明を適用した音声認識装置の一実施の形態
の構成例を示すブロック図である。
【図7】文法規則を示す図である。
【図8】登録処理を説明するフローチャートである。
【図9】音声認識処理を説明するフローチャートであ
る。
【図10】カテゴリ推定処理を説明するフローチャート
である。
【図11】カテゴリ推定処理を説明する図である。
【図12】音声認識処理を説明するフローチャートであ
る。
【図13】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
【符号の説明】
1 マイク, 2 AD変換部, 3 特徴抽出部,
4 マッチング部,5 音響モデルデータベース, 6
辞書データベース, 7 文法データベース, 8
登録部, 9 カテゴリ推定部, 9A スコアメモ
リ, 10 修正部, 101 バス, 102 CP
U, 103 ROM, 104 RAM, 105 ハード
ディスク, 106 出力部, 107 入力部, 1
08 通信部, 109 ドライブ, 110 入出力
インタフェース, 111 リムーバブル記録媒体
───────────────────────────────────────────────────── フロントページの続き (72)発明者 南野 活樹 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 ヘルムート ルッケ 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5D015 GG03 HH11

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 語彙のカテゴリを用いた文法規則に基づ
    き、辞書に登録された語彙を対象として音声認識を行う
    音声認識手段による音声認識結果を処理する自然言語処
    理装置であって、 前記辞書に登録された、そのカテゴリが未定の語彙であ
    るカテゴリ未定語彙が、前記音声認識結果に含まれるか
    否かを判定する判定手段と、 前記文法規則に定義されている複数のカテゴリの中か
    ら、前記カテゴリ未定語彙のカテゴリを、そのカテゴリ
    未定語彙を含む前記音声認識結果に基づいて推定する推
    定手段とを備えることを特徴とする自然言語処理装置。
  2. 【請求項2】 前記推定手段は、最も尤度の高い前記音
    声認識結果に基づいて、前記カテゴリ未定語彙のカテゴ
    リを推定することを特徴とする請求項1に記載の自然言
    語処理装置。
  3. 【請求項3】 前記推定手段は、前記音声認識結果を構
    成する語彙について前記文法規則に基づいて得られる言
    語的な尤度から、その音声認識結果に含まれる前記カテ
    ゴリ未定語彙のカテゴリを推定することを特徴とする請
    求項1に記載の自然言語処理装置。
  4. 【請求項4】 前記推定手段は、前記文法規則に定義さ
    れている複数のカテゴリのうち、前記音声認識結果の言
    語的な尤度を最大にするものを、その音声認識結果に含
    まれる前記カテゴリ未定語彙のカテゴリとして推定する
    ことを特徴とする請求項3に記載の自然言語処理装置。
  5. 【請求項5】 前記推定手段は、前記音声認識手段の音
    声認識結果として、過去にカテゴリを推定した前記カテ
    ゴリ未定語彙を含むものが得られた場合に、その音声認
    識結果に基づいて、その音声認識結果に含まれる前記カ
    テゴリ未定語彙のカテゴリを再度推定することを特徴と
    する請求項1に記載の自然言語処理装置。
  6. 【請求項6】 前記推定手段は、前記カテゴリ未定語彙
    のカテゴリとして、2以上のカテゴリを推定することを
    特徴とする請求項1に記載の自然言語処理装置。
  7. 【請求項7】 前記カテゴリ未定語彙が、前記2以上の
    カテゴリのそれぞれに属する確率であるカテゴリ確率を
    求める確率演算手段をさらに備えることを特徴とする請
    求項6に記載の自然言語処理装置。
  8. 【請求項8】 前記音声認識手段は、前記文法規則と前
    記カテゴリ確率に基づいて、前記カテゴリ未定語彙につ
    いての言語的な尤度を求めることを特徴とする請求項7
    に記載の自然言語処理装置。
  9. 【請求項9】 前記音声認識手段による音声認識結果を
    修正する修正手段をさらに備え、 前記判定手段は、前記修正手段により修正された前記音
    声認識結果に、カテゴリ未定語彙が含まれるか否かを判
    定することを特徴とする請求項1に記載の自然言語処理
    装置。
  10. 【請求項10】 前記辞書に登録されていない未知語
    を、前記カテゴリ未定語彙として、前記辞書に登録する
    登録手段をさらに備えることを特徴とする請求項1に記
    載の自然言語処理装置。
  11. 【請求項11】 前記音声認識手段をさらに備えること
    を特徴とする請求項1に記載の自然言語処理装置。
  12. 【請求項12】 語彙のカテゴリを用いた文法規則に基
    づき、辞書に登録された語彙を対象として音声認識を行
    う音声認識手段による音声認識結果を処理する自然言語
    処理方法であって、 前記辞書に登録された、そのカテゴリが未定の語彙であ
    るカテゴリ未定語彙が、前記音声認識結果に含まれるか
    否かを判定する判定ステップと、 前記文法規則に定義されている複数のカテゴリの中か
    ら、前記カテゴリ未定語彙のカテゴリを、そのカテゴリ
    未定語彙を含む前記音声認識結果に基づいて推定する推
    定ステップとを備えることを特徴とする自然言語処理方
    法。
  13. 【請求項13】 語彙のカテゴリを用いた文法規則に基
    づき、辞書に登録された語彙を対象として音声認識を行
    う音声認識手段による音声認識結果を処理する自然言語
    処理を、コンピュータに行わせるプログラムが記録され
    ている記録媒体であって、 前記辞書に登録された、そのカテゴリが未定の語彙であ
    るカテゴリ未定語彙が、前記音声認識結果に含まれるか
    否かを判定する判定ステップと、 前記文法規則に定義されている複数のカテゴリの中か
    ら、前記カテゴリ未定語彙のカテゴリを、そのカテゴリ
    未定語彙を含む前記音声認識結果に基づいて推定する推
    定ステップとを備えるプログラムが記録されていること
    を特徴とする記録媒体。
JP2000347491A 2000-11-15 2000-11-15 自然言語処理装置および自然言語処理方法、並びに記録媒体 Withdrawn JP2002149188A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000347491A JP2002149188A (ja) 2000-11-15 2000-11-15 自然言語処理装置および自然言語処理方法、並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000347491A JP2002149188A (ja) 2000-11-15 2000-11-15 自然言語処理装置および自然言語処理方法、並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2002149188A true JP2002149188A (ja) 2002-05-24

Family

ID=18821207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000347491A Withdrawn JP2002149188A (ja) 2000-11-15 2000-11-15 自然言語処理装置および自然言語処理方法、並びに記録媒体

Country Status (1)

Country Link
JP (1) JP2002149188A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006208905A (ja) * 2005-01-31 2006-08-10 Nissan Motor Co Ltd 音声対話装置及び音声対話方法
JP2010277036A (ja) * 2009-06-01 2010-12-09 Mitsubishi Electric Corp 音声データ検索装置
KR20150066361A (ko) * 2013-12-06 2015-06-16 주식회사 케이티 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템
WO2019088362A1 (ko) * 2017-10-30 2019-05-09 엘지전자 주식회사 이동 단말기

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006208905A (ja) * 2005-01-31 2006-08-10 Nissan Motor Co Ltd 音声対話装置及び音声対話方法
JP4661239B2 (ja) * 2005-01-31 2011-03-30 日産自動車株式会社 音声対話装置及び音声対話方法
JP2010277036A (ja) * 2009-06-01 2010-12-09 Mitsubishi Electric Corp 音声データ検索装置
KR20150066361A (ko) * 2013-12-06 2015-06-16 주식회사 케이티 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템
KR102204395B1 (ko) * 2013-12-06 2021-01-19 주식회사 케이티 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템
WO2019088362A1 (ko) * 2017-10-30 2019-05-09 엘지전자 주식회사 이동 단말기
US11240361B2 (en) 2017-10-30 2022-02-01 Lg Electronics Inc. Mobile terminal

Similar Documents

Publication Publication Date Title
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US9934777B1 (en) Customized speech processing language models
US10923111B1 (en) Speech detection and speech recognition
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US10170107B1 (en) Extendable label recognition of linguistic input
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
JP3716870B2 (ja) 音声認識装置および音声認識方法
US8914286B1 (en) Speech recognition with hierarchical networks
US10490182B1 (en) Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks
US20140025379A1 (en) Method and System for Real-Time Keyword Spotting for Speech Analytics
KR20070047579A (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
JP2002366187A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US10199037B1 (en) Adaptive beam pruning for automatic speech recognition
CN112435654A (zh) 通过帧插入对语音数据进行数据增强
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP3961780B2 (ja) 言語モデル学習装置およびそれを用いた音声認識装置
US20040006469A1 (en) Apparatus and method for updating lexicon
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
WO2014014478A1 (en) Method and system for real-time keyword spotting for speech analytics
JP2002149188A (ja) 自然言語処理装置および自然言語処理方法、並びに記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080205