JP2014056216A - 音声認識装置、音声認識方法、及び、プログラム - Google Patents

音声認識装置、音声認識方法、及び、プログラム Download PDF

Info

Publication number
JP2014056216A
JP2014056216A JP2012202393A JP2012202393A JP2014056216A JP 2014056216 A JP2014056216 A JP 2014056216A JP 2012202393 A JP2012202393 A JP 2012202393A JP 2012202393 A JP2012202393 A JP 2012202393A JP 2014056216 A JP2014056216 A JP 2014056216A
Authority
JP
Japan
Prior art keywords
newly registered
registered word
language model
word
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012202393A
Other languages
English (en)
Inventor
Ryosuke Isotani
亮輔 磯谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012202393A priority Critical patent/JP2014056216A/ja
Publication of JP2014056216A publication Critical patent/JP2014056216A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】言語モデルに新たに登録した単語が精度よく認識される音声認識装置を提供する。
【解決手段】単語の集合および単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶部と、新規に登録する単語である新規登録単語と新規登録単語を含む音声データとを用いて新規登録単語に付随するパラメータを決定し、新規登録単語、及び、新規登録単語に付随するパラメータを確率的言語モデルに登録する言語モデル更新部3とを有し、言語モデル更新部3は、新規登録単語に付随するパラメータを決定する際、音声データ中の新規登録単語部分が正しく認識されるパラメータを特定し、特定したパラメータを新規登録単語に付随するパラメータとして決定する音声認識装置10。
【選択図】図1

Description

本発明は、音声認識装置、音声認識方法、及び、プログラムに関する。
近年、音声で入力した文をテキストに変換する音声認識装置が実用化されている。このような音声認識装置には、確率的言語モデルを用いた連続音声認識技術が広く使用されている。
確率的言語モデルは、一般に大規模なテキストコーパスから学習することによりあらかじめ作成され提供される。言語モデルに含まれる語彙、すなわち音声認識辞書は、学習に用いたテキストコーパスに含まれる単語から作成され、数万語以上の単語を含むことが多いが、それでも固有名詞や新語などユーザの発声しうるあらゆる単語をカバーすることはできず、ユーザが言語モデルの語彙にない単語を含む文を発声することがある。音声認識辞書に含まれない単語は未知語と呼ばれ、誤認識の原因となる。
未知語を認識できるようにするには、未知語を言語モデルに追加登録する必要がある。その際、未知語が正しく認識されるようにするためには、その未知語を音声認識辞書に追加するのに加え、さらに未知語に対して言語モデルとして適切なパラメータを割り当てる必要がある。
従来、単語(未知語)を言語モデルに追加登録する方法として、特許文献1に記載の方法が知られている。当該技術では、未知語および該未知語が属する単語クラスを入力する入力手段と、単語クラスごとに未知語に対して割り当てるパラメータを記憶しておく記憶手段と、確率的言語モデルに登録されている既知語およびそのパラメータを単語クラスごとに分類する手段を有し、当該単語クラスごとに分類された既知語のパラメータに基づいてあらかじめ定めた演算式にしたがって前記記憶手段に記憶するパラメータを取得する演算手段を有する。
特許第3907880号公報
上記特許文献1の方法では、認識させたい未知語を登録しても、その語に対する言語モデルのパラメータが適切に割り当てられず、発声しても認識されないことがあるという問題点がある。その理由は、未知語にパラメータを割り当てる処理において、既に言語モデルに登録されている既知語中の同音語や類似語の言語モデルパラメータとの関係が考慮されないためである。たとえば、登録する未知語と同音の既知語が既に登録されており、その語に未知語に割り当てたパラメータよりも大きな(よい)言語モデルパラメータがもともと割り当てられていると、常にその既知語の方が優先的に認識結果とされることとなる。このため、登録した未知語を発声した場合であっても、その既知語として認識されてしまい、新たに登録した未知語として正しく認識されないという問題が発生しうる。
本発明の目的は、かかる課題を解決し、言語モデルに新たに登録した単語が精度よく認識される音声認識装置を提供することにある。
本発明によれば、
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶手段と、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新手段と、
を有し、
前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する前記音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定し、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定する音声認識装置が提供される。
また、本発明によれば、
コンピュータが、
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶しておき、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新ステップを実行し、
前記言語モデル更新ステップで前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定し、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定する音声認識方法が提供される。
また、本発明によれば、
コンピュータを、
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶手段、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新手段、
として機能させ、
前記言語モデル更新手段に、前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定させ、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定させるプログラムが提供される。
本発明によれば、言語モデルに新たに登録した単語が精度よく認識できるようになる。
本実施形態の音声認識装置の機能ブロック図の一例である。 本実施形態の音声認識装置の機能ブロック図の一例である。
以下、本発明の実施の形態について図面を用いて説明する。
なお、本実施形態の装置は、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラム(あらかじめ装置を出荷する段階からメモリ内に格納されているプログラムのほか、CD等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む)、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インタフェイスを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
また、本実施形態の説明において利用する機能ブロック図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、各装置は1つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。
<第1の実施形態>
まず、本発明の第1の実施の形態について図面を参照して詳細に説明する。
図1を参照すると、本実施形態の音声認識装置10は、音声入力部1と、登録単語入力部2と、言語モデル更新部3と、音声認識部4とを含む。これらの部はそれぞれ概略つぎのように動作する。
音声入力部1は、マイク等の機器あるいは電話等の通信回線経由で音声信号を取り込み、必要に応じてA/D変換、符号化音声の復号、雑音除去、音声分析などの前処理を行い、特徴量の時系列データを出力する。音声信号を取り込むかわりに、デジタル化された音声データや前処理済みの特徴量データを記憶媒体から読みこむ構成もありうる。以下では、音声入力部1が出力する特徴量の時系列データを入力音声データと称する。
登録単語入力部2は、ユーザが音声認識辞書に登録したい単語(新規登録単語)の情報を入力する手段を提供する。新規登録単語の情報としては、表記、読み、品詞等のカテゴリなどがありうる。入力手段としては、キーボード入力、ファイルからの読み込み、外部のデータベースからの取得などが考えられる。
音声認識装置10は、音声認識モードと単語登録モードの2つのモードを有し、音声入力部1が出力する入力音声データは、音声認識モードでは音声認識部4に、単語登録モードでは言語モデル更新部3に入力される。
音声認識モードでは、音声認識部4が音声入力部1から入力音声データを受け取り、言語モデル5と音響モデル6を用いて音声認識を行い、結果の単語列を音声認識結果テキストとして出力する。
言語モデル5は、単語の集合および単語各々に付随するパラメータを保持する確率的言語モデルであり、確率的言語モデル記憶部に記憶されている。言語モデル5としては、例えば、単語N−gramモデル、クラス言語モデルなどを用いることができる。音響モデル6としては、隠れマルコフモデルなどを用いることができる。これらの技術は当業者には周知であるため、ここでは詳細な説明は省略する。
単語登録モードでは、登録単語入力部2によって新規登録単語の情報の入力を受け付けるとともに、ユーザにその単語もしくはその単語を含む文を音声で入力するよう促すなどすることで入力された音声信号を音声入力部1により取り込む。登録単語入力部2で入力を受け付けた新規登録単語の情報は、音声入力部1からの入力音声データとともに、言語モデル更新部3に渡される。
言語モデル更新部3は、新規に登録する単語である新規登録単語と新規登録単語を含む音声データとを用いて新規登録単語に付随するパラメータを決定し、新規登録単語、及び、新規登録単語に付随するパラメータを確率的言語モデルに登録する。
すなわち、言語モデル更新部3は、新規登録単語を言語モデル5の語彙(音声認識辞書)に登録するとともに、入力音声データと音響モデル6を参照して、その入力音声データに対して音声認識を行ったときに新規登録単語が正しく認識されるように当該単語に付随するパラメータを決定し、言語モデル5に登録する。
なお、言語モデル更新部3は、新規登録単語に付随するパラメータを決定する際、新規登録単語、及び、新規登録単語に付随する仮のパラメータを確率的言語モデルに仮登録し、当該確率的言語モデルを用いて音声データに対して音声認識処理を行うシミュレーションにより、音声データに対する音声認識処理の認識結果に新規登録単語が含まれることとなるパラメータを特定し、特定したパラメータを新規登録単語に付随するパラメータとして決定してもよい。上記シミュレーションにおける音声認識処理は、音声認識部4が行う音声認識処理と同じ条件で行われるのが好ましい。言語モデル更新部3が決定するパラメータは、そのパタメータの具体的な値である。
以下、言語モデル更新部3の動作について、具体的な実施例に基づいてより詳細に説明する。
言語モデル5として、クラス言語モデルの一種であるクラスバイグラムモデルを例にとって説明する。クラスとしては品詞を用いる。品詞のかわりに、品詞を細分化した「地名」、「人名」などのクラスを用いることもできる。あるいは、「未知語」というクラスを用いて、新規登録単語はすべて「未知語」クラスに属するものとして扱うこともできる。クラスバイグラムモデルでは、単語wi-1の次に単語wiがくる単語バイグラム確率を次式で近似する。
Figure 2014056216
ここで、Ciは単語wiの属するクラスである。言語モデル5は、表記、読み、品詞情報つきの単語の集合である音声認識辞書と、クラス間の連接確率P(Ci|Ci-1)の値のテーブルと、単語に付随するパラメータとして音声認識辞書中の各単語wについてのその品詞内での出現確率P(w|C)の値を保持する。P(w|C)の値が大きいほど、その単語は認識結果として出やすくなる。P(w|C)の値が小さすぎると、その単語を含む文を発声しても正しく認識されず、逆に大き過ぎると、その単語を発声していないにも関わらず、誤ってその単語が認識結果に表れることになる。
登録単語入力部2は、新規登録単語の情報として、その単語の表記、読み、クラス(品詞)の入力を受け付ける。たとえば、表記が「鈴木」、読みが「すずき」、クラスが「人名」である単語が入力されたとする。言語モデル更新部3は、入力された単語の表記、読み、品詞の組を言語モデル5の語彙に追加する。言語モデル更新部3は、音響モデル、言語モデルを参照して、新規登録単語を含む入力音声データ、たとえば「私の名前は鈴木です」と発声した音声データを音声認識部4と同じ条件(同じ言語モデル5及び同じ音響モデル6)で認識し、認識結果を求める。認識結果は、一般に単語列として得られる。このとき、新規登録単語についてのP(w|C)の値については、十分小さな値から十分大きな値までの複数個の候補値をあらかじめ用意しておき、それぞれの値に仮置きして音声認識結果を求める。P(w|C)の値によって、たとえば「私/の/名前/は/好き/です」、「私/の/名前/は/鈴木/です」などの認識結果が得られる。ここで記号「/」は単語区切りを表す。そして、上記入力音声データ中の新規登録単語部分が正しく認識される(上記入力音声データに対する音声認識処理の認識結果単語列中に新規登録単語が含まれる)P(w|C)の値のいずれかを、当該新規登録単語のパラメータとして決定し、言語モデル5に登録する。上記の例では、認識結果単語列中に「鈴木」という単語が含まれるようなP(w|C)の値のいずれかを登録する。
入力音声データ中の新規登録単語部分が正しく認識されるP(w|C)の値が複数ある場合、いずれを当該新規登録単語に付随するパラメータとして言語モデル5に登録するかは設計的事項である。しかし、一般に、P(w|C)の値が小さいとその単語は認識結果には出現せず、P(w|C)がある値以上になると、認識結果に出現するようになる。そこで、上記入力音声データ中の新規登録単語部分が正しく認識されるP(w|C)の値のうち、最も小さな値を選択して、言語モデル5に登録してもよい。このとき余裕をみて、上記最も小さな値に一定値を上乗せした値を登録することもできる。
なお、上述のように複数のパラメータの候補をあらかじめ用意しておき、各々を用いて音声認識を行うシミュレーションに代えて、以下のような手段を採用することもできる。
ある一つのあらかじめ決めた仮のP(w|C)の値を用いて音声認識を行い、2位以下の候補を含めた複数の認識結果候補(Nベスト)をスコア(類似度)つきで求める。そして、新規登録単語が含まれる認識結果候補のうちスコア(類似度)が最上位のものと、その新規登録単語を含まない認識結果候補のうちスコア(類似度)が最上位のものとのスコア差をもとに、その単語が含まれる認識結果候補が認識結果(1位認識結果)になるようなP(w|C)の値を求めることも可能である。たとえば、前者のスコアが後者のスコアより小さければ、その差に相当する値より大きな値をあらかじめ決めた上記仮のP(w|C)の値に加えることで、当該新規登録単語に付随するパラメータとして言語モデル5に登録する値を決定することができる。新規登録単語についてP(w|C)をあらたに登録するのに加え、同じクラスCに属するすべての単語についてのP(w|C)の和が1になるよう、同じクラスCに属する他の単語についてのP(w|C)の値を一定割合減じてもよい。
言語モデル更新部3では、登録単語入力部2が入力を受け付けた新規登録単語を言語モデル5の語彙に追加する前に、その単語が言語モデル5の語彙に含まれている単語のいずれかと一致するか否かを調べ、一致するものがあれば、その新規登録単語を言語モデル5に追加登録するかわりに、語彙中の一致した単語に付随するパラメータを上記のように決定した値に更新するようにしてもよい。
本実施形態によれば、登録した単語(未知語)が精度よく認識できるようになる。その理由は、実際にその語を含む音声の音声認識を行って、その語が認識結果に表れるように、その語に対する言語モデルパラメータを決定するからである。
<第2の実施形態>
次に、本発明の第2の実施の形態について、図面を参照して詳細に説明する。
図2を参照すると、本実施形態の音声認識装置10は、音声入力部101と、登録単語入力部102と、単語・音声対応付け部107と、言語モデル更新部3と、音声認識部4とを含む。これらの部はそれぞれ概略つぎのように動作する。
音声入力部101は、マイク等の機器あるいは電話等の通信回線経由で音声信号を取り込み、必要に応じてA/D変換、符号化音声の復号、雑音除去、音声分析などの前処理を行い、特徴量の時系列データを出力するとともに、入力された音声信号あるいはそれに対し前処理を行った結果のデータを、タイムスタンプなどの付加情報とともに音声ファイル108に格納する。
音声認識部4の動作については、第1の実施形態と同様なので省略する。
登録単語入力部102は、ユーザが音声認識辞書に登録したい1つ以上の単語(新規登録単語)の情報を入力する手段を提供する。各新規登録単語の情報としては、表記、読み、品詞等のカテゴリなどがありうる。入力手段としては、キーボード入力、ファイルからの読み込み、外部のデータベースからの取得などが考えられる。
音声ファイル108には、音声データが格納されている(音声データ記憶部)。
単語・音声対応付け部107は、音声ファイル108を参照し、登録単語入力部102に入力された新規登録単語を含む音声データがあるか否かを判断し、ある場合には、その新規登録単語とその音声データとを対にして、言語モデル更新部3に入力する。
言語モデル更新部3は、単語・音声対応付け部107から新規登録単語とその新規登録単語を含む音声データの対を受け取り、言語モデル5を更新する。言語モデル更新部3の動作については、第1の実施形態と同様なので詳細は省略する。
なお、音声ファイル108の中に対応する音声データがない新規登録単語には、音声データと対にされることなく、新規登録単語だけで言語モデル更新部3に入力されてもよい。かかる場合、言語モデル更新部3は、当該新規登録単語に付随するパラメータとして、あらかじめ定められたパラメータの値を決定し、言語モデル5に登録してもよい。
また、音声ファイル108の中に対応する音声データが複数見付かった新規登録単語については、当該新規登録単語と複数の音声データとを対にして、言語モデル更新部3に入力されてもよい。かかる場合、言語モデル更新部3は、複数の音声データ各々を用いて第1の実施形態で説明したシミュレーションを行い、すべての音声データ中の新規登録単語部分が正しく認識されるパラメータを特定して、そのパラメータの値を、当該新規登録単語のパラメータとして決定してもよい。
以下、単語・音声対応付け部107の動作について、具体的な実施例に基づいてより詳細に説明する。
単語・音声対応付け部107は、音声ファイル108に格納されている音声データから、望ましくはタイムスタンプが一定時間前以降であるなどの条件で選択を行った上で、各音声データが、登録単語入力部102に入力された各新規登録単語を含むか否かを判断する。
ある音声がある新規登録単語を含むかどうかの判定には、たとえばワードスポッティング法を用いることができる。ワードスポッティング法は当業者には周知の技術であるため、詳細は省略する。あるいは、言語モデル5と音響モデル6を用いて判定する方法も考えられる。具体的には、言語モデル5に当該新規登録単語を仮のパラメータで登録した上で、音響モデル6と言語モデル5を用いて音声認識部4と同様の方法で音声認識を行い、2位以下の候補を含めた複数の認識結果候補を取得する。そして、複数の認識結果候補(単語列)の中に当該新規登録単語を含むものがあれば、当該音声データに当該新規登録単語が含まれていると判定する。このようにして、登録単語入力部102に入力された新規登録単語各々について、音声ファイル108の中に各新規登録単語を含む音声データがあるか否かを判定してもよい。
上記では、登録単語入力部102が新規登録単語の入力を受け付ける前に既に存在する音声ファイル108を利用する場合について述べたが、登録単語入力部102が新規登録単語の入力を受け付けた後に設けられた音声ファイルを用いることも考えられる。この場合は、単語・音声対応付け部107は、登録単語入力部102から新規登録単語の情報を受け取った後、音声ファイル108を監視し、新たにデータが一定量追加されたとき、それらの音声データを対象として、登録単語入力部102に入力された新規登録単語各々を含むか否かの判断を行い、結果を出力する。この処理は、一定量データが追加されるたび、あるいは一定時間ごとに繰り返してもよい。
本実施形態では、第1の実施形態と比べて、ユーザの利便性が向上する。その理由は、ユーザが新規登録単語を入力するたびに音声を入力しなくて済むからである。
また、本実施形態では、第1の実施形態と同様の作用効果を実現することができる。
<<付記>>
上記説明によれば、以下の発明の説明がなされている。
<発明1>
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶手段と、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新手段と、
を有し、
前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定し、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定する音声認識装置。
<発明2>
発明1に記載の音声認識装置において、
前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを決定する際、前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより、前記音声データに対する前記音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定する音声認識装置。
<発明3>
発明1又は2に記載の音声認識装置において、
音声データを格納する音声ファイルを記憶する音声データ記憶手段と、
前記新規登録単語の入力を受け付ける登録単語入力手段と、
前記音声ファイルを参照し、前記新規登録単語を含む前記音声データがあるか否かを判断し、ある場合には、その新規登録単語とその音声データとを対にして、前記言語モデル更新手段に入力する単語・音声対応付け手段と、
をさらに有する音声認識装置。
<発明4>
発明3に記載の音声認識装置において、
前記単語・音声対応付け手段は、
前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声ファイル中の各音声データに対して音声認識処理を行うことにより、前記音声ファイルの中に前記新規登録単語を含む音声データがあるか否かを判定する音声認識装置。
<発明5>
発明2に記載の音声認識装置において、さらに、
入力された音声データに対して音響モデルを用いて音声認識処理を行い、認識結果を出力する音声認識手段を有し、
前記言語モデル更新手段は、前記シミュレーションにおいて前記音響モデルを用いる音声認識装置。
<発明6>
発明1から5のいずれかに記載の音声認識装置において、
前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを、あらかじめ用意した複数の候補の中から選択することにより決定する音声認識装置。
<発明7>
発明1から6のいずれかに記載の音声認識装置において、
前記言語モデル更新手段は、
前記新規登録単語、及び、前記新規登録単語に付随するあらかじめ用意した仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより得られる音声認識結果の複数の候補と各候補の類似度を基に、前記新規登録単語に付随する前記パラメータを決定する音声認識装置。
<発明8>
発明1から7のいずれかに記載の音声認識装置において、
前記確率的言語モデルはクラス言語モデルであり、前記単語各々に付随する前記パラメータはその単語の属するクラスにおけるその単語の出現確率である音声認識装置。
<発明9>
コンピュータが、
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶しておき、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新ステップを実行し、
前記言語モデル更新ステップで前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定し、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定する音声認識方法。
<発明9−2>
発明9に記載の音声認識方法において、
前記言語モデル更新ステップでは、前記新規登録単語に付随する前記パラメータを決定する際、前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより、前記音声データに対する前記音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定する音声認識方法。
<発明9−3>
発明9又は9−2に記載の音声認識方法において、
前記コンピュータが、
音声データを格納する音声ファイルを記憶しておき、
前記新規登録単語の入力を受け付ける登録単語入力ステップと、
前記音声ファイルを参照し、前記新規登録単語を含む前記音声データがあるか否かを判断し、ある場合には、その新規登録単語とその音声データとを対にして、前記言語モデル更新ステップで使用するために出力する単語・音声対応付けステップと、
をさらに実行する音声認識方法。
<発明9−4>
発明9−3に記載の音声認識方法において、
前記単語・音声対応付けステップでは、
前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声ファイル中の各音声データに対して音声認識処理を行うことにより、前記音声ファイルの中に前記新規登録単語を含む音声データがあるか否かを判定する音声認識方法。
<発明9−5>
発明9−2に記載の音声認識方法において、
前記コンピュータが、
入力された音声データに対して音響モデルを用いて音声認識処理を行い、認識結果を出力する音声認識ステップを実行し、
前記言語モデル更新ステップでは、前記シミュレーションにおいて前記音響モデルを用いる音声認識方法。
<発明9−6>
発明9から9−5のいずれかに記載の音声認識方法において、
前記言語モデル更新ステップでは、前記新規登録単語に付随する前記パラメータを、あらかじめ用意した複数の候補の中から選択することにより決定する音声認識方法。
<発明9−7>
発明9から9−6のいずれかに記載の音声認識方法において、
前記言語モデル更新ステップでは、
前記新規登録単語、及び、前記新規登録単語に付随するあらかじめ用意した仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより得られる音声認識結果の複数の候補と各候補の類似度を基に、前記新規登録単語に付随する前記パラメータを決定する音声認識方法。
<発明9−8>
発明9から9−7のいずれかに記載の音声認識方法において、
前記確率的言語モデルはクラス言語モデルであり、前記単語各々に付随する前記パラメータはその単語の属するクラスにおけるその単語の出現確率である音声認識方法。
<発明10>
コンピュータを、
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶手段、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新手段、
として機能させ、
前記言語モデル更新手段に、前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定させ、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定させるプログラム。
<発明10−2>
発明10に記載のプログラムにおいて、
前記言語モデル更新手段に、前記新規登録単語に付随する前記パラメータを決定する際、前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより、前記音声データに対する前記音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定させるプログラム。
<発明10−3>
発明10又は10−2に記載のプログラムにおいて、
前記コンピュータを、
音声データを格納する音声ファイルを記憶する音声データ記憶手段、
前記新規登録単語の入力を受け付ける登録単語入力手段、
前記音声ファイルを参照し、前記新規登録単語を含む前記音声データがあるか否かを判断し、ある場合には、その新規登録単語とその音声データとを対にして、前記言語モデル更新手段に入力する単語・音声対応付け手段、
として機能させるプログラム。
<発明10−4>
発明10−3に記載のプログラムにおいて、
前記単語・音声対応付け手段に、
前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声ファイル中の各音声データに対して音声認識処理を行うことにより、前記音声ファイルの中に前記新規登録単語を含む音声データがあるか否かを判定させるプログラム。
<発明10−5>
発明10−2に記載のプログラムにおいて、
前記コンピュータを、さらに、
入力された音声データに対して音響モデルを用いて音声認識処理を行い、認識結果を出力する音声認識手段として機能させ、
前記言語モデル更新手段に、前記シミュレーションにおいて前記音響モデルを用いさせるプログラム。
<発明10−6>
発明10から10−5のいずれかに記載のプログラムにおいて、
前記言語モデル更新手段に、前記新規登録単語に付随する前記パラメータを、あらかじめ用意した複数の候補の中から選択することにより決定させるプログラム。
<発明10−7>
発明10から10−6のいずれかに記載のプログラムにおいて、
前記言語モデル更新手段に、
前記新規登録単語、及び、前記新規登録単語に付随するあらかじめ用意した仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより得られる音声認識結果の複数の候補と各候補の類似度を基に、前記新規登録単語に付随する前記パラメータを決定させるプログラム。
<発明10−8>
発明10から10−7のいずれかに記載のプログラムにおいて、
前記確率的言語モデルはクラス言語モデルであり、前記単語各々に付随する前記パラメータはその単語の属するクラスにおけるその単語の出現確率であるプログラム。
1 音声入力部
2 登録単語入力部
3 言語モデル更新部
4 音声認識部
5 言語モデル
6 音響モデル
10 音声認識装置
101 音声入力部
102 登録単語入力部
107 単語・音声対応付け部
108 音声ファイル

Claims (10)

  1. 単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶手段と、
    新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新手段と、
    を有し、
    前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定し、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定する音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを決定する際、前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより、前記音声データに対する前記音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定する音声認識装置。
  3. 請求項1又は2に記載の音声認識装置において、
    音声データを格納する音声ファイルを記憶する音声データ記憶手段と、
    前記新規登録単語の入力を受け付ける登録単語入力手段と、
    前記音声ファイルを参照し、前記新規登録単語を含む前記音声データがあるか否かを判断し、ある場合には、その新規登録単語とその音声データとを対にして、前記言語モデル更新手段に入力する単語・音声対応付け手段と、
    をさらに有する音声認識装置。
  4. 請求項3に記載の音声認識装置において、
    前記単語・音声対応付け手段は、
    前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声ファイル中の各音声データに対して音声認識処理を行うことにより、前記音声ファイルの中に前記新規登録単語を含む音声データがあるか否かを判定する音声認識装置。
  5. 請求項2に記載の音声認識装置において、さらに、
    入力された音声データに対して音響モデルを用いて音声認識処理を行い、認識結果を出力する音声認識手段を有し、
    前記言語モデル更新手段は、前記シミュレーションにおいて前記音響モデルを用いる音声認識装置。
  6. 請求項1から5のいずれか1項に記載の音声認識装置において、
    前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを、あらかじめ用意した複数の候補の中から選択することにより決定する音声認識装置。
  7. 請求項1から6のいずれか1項に記載の音声認識装置において、
    前記言語モデル更新手段は、
    前記新規登録単語、及び、前記新規登録単語に付随するあらかじめ用意した仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより得られる音声認識結果の複数の候補と各候補の類似度を基に、前記新規登録単語に付随する前記パラメータを決定する音声認識装置。
  8. 請求項1から7のいずれか1項に記載の音声認識装置において、
    前記確率的言語モデルはクラス言語モデルであり、前記単語各々に付随する前記パラメータはその単語の属するクラスにおけるその単語の出現確率である音声認識装置。
  9. コンピュータが、
    単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶しておき、
    新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新ステップを実行し、
    前記言語モデル更新ステップで前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定し、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定する音声認識方法。
  10. コンピュータを、
    単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶手段、
    新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新手段、
    として機能させ、
    前記言語モデル更新手段に、前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定させ、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定させるプログラム。
JP2012202393A 2012-09-14 2012-09-14 音声認識装置、音声認識方法、及び、プログラム Pending JP2014056216A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012202393A JP2014056216A (ja) 2012-09-14 2012-09-14 音声認識装置、音声認識方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012202393A JP2014056216A (ja) 2012-09-14 2012-09-14 音声認識装置、音声認識方法、及び、プログラム

Publications (1)

Publication Number Publication Date
JP2014056216A true JP2014056216A (ja) 2014-03-27

Family

ID=50613541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012202393A Pending JP2014056216A (ja) 2012-09-14 2012-09-14 音声認識装置、音声認識方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP2014056216A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190096159A (ko) * 2018-02-08 2019-08-19 주식회사 케이티 사용자 맞춤형 언어 모델을 생성하는 장치, 단말 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190096159A (ko) * 2018-02-08 2019-08-19 주식회사 케이티 사용자 맞춤형 언어 모델을 생성하는 장치, 단말 및 방법
KR102582360B1 (ko) * 2018-02-08 2023-09-25 주식회사 케이티 사용자 맞춤형 언어 모델을 생성하는 장치, 단말 및 방법

Similar Documents

Publication Publication Date Title
CN109493850B (zh) 成长型对话装置
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP3967952B2 (ja) 文法更新システム及び方法
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US9177545B2 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
JP5098613B2 (ja) 音声認識装置及びコンピュータプログラム
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
WO2020238045A1 (zh) 智能语音识别方法、装置及计算机可读存储介质
JPWO2009081861A1 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP7485858B2 (ja) 実世界ノイズを使用した音声個性化および連合訓練
JP2018045001A (ja) 音声認識システム、情報処理装置、プログラム、音声認識方法
CN113920986A (zh) 会议记录生成方法、装置、设备及存储介质
CN112397051A (zh) 语音识别方法、装置及终端设备
JP5068225B2 (ja) 音声ファイルの検索システム、方法及びプログラム
JP4089861B2 (ja) 音声認識文章入力装置
JP2012177815A (ja) 音響モデル学習装置、および音響モデル学習方法
WO2008150003A1 (ja) キーワード抽出モデル学習システム、方法およびプログラム
CN111798841B (zh) 声学模型训练方法、系统、移动终端及存储介质
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム
JP2014164261A (ja) 情報処理装置およびその方法
KR101559576B1 (ko) 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법
JP2014056216A (ja) 音声認識装置、音声認識方法、及び、プログラム
CN110895938B (zh) 语音校正系统及语音校正方法
JP6009396B2 (ja) 発音付与方法とその装置とプログラム