WO2005122143A1

WO2005122143A1 - 音声認識装置および音声認識方法

Info

Publication number: WO2005122143A1
Application number: PCT/JP2005/009652
Authority: WO
Inventors: Makoto Nishizaki; Yoshihisa Nakatoh; Maki Yamada; Shinichi Yoshizawa
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-06-08
Filing date: 2005-05-26
Publication date: 2005-12-22
Also published as: US20060100876A1; JPWO2005122143A1; US7310601B2; JP3923513B2

Abstract

　話題が変化してもその話題に対応した言語モデルをリアルタイムに生成することにより音声認識を適切に行う音声認識装置を提供する。　語彙を取得して指定する語彙指定部（１０１）と、音声を認識するための複数種の言語モデル、およびそれらのタグ情報を格納する言語モデル情報格納部（１０５）と、語彙指定部（１０１）で取得された語彙と、各言語モデルのタグ情報との関連性に基づいて、語彙指定部（１０１）で取得された語彙に応じた各言語モデルの重みを組合せ係数として算出する組合せ係数算出部（１０３）と、算出された組合せ係数に応じて各言語モデルを組み合わせることにより、出現単語予測確率を算出する言語確率計算部（１０４）と、算出された出現単語予測確率を用いて音声を認識する音声認識部（３０１）とを備える。

Description

明細書

音声認識装置および音声認識方法

技術分野

[0001] 本発明は、言語モデルを用いて音声を認識する音声認識装置および音声認識方法に関する。

背景技術

[0002] 音声認識などに用いられる言語モデルは、音声認識の対象となるタスクに対応した大量の文例集をもとに、その文例に対して、不要な記号などを削除する前処理などを施した後、形態素解析を行い、単語の連鎖情報を統計的にモデルィ匕したものである。通常、言語モデルには 2— gramまたは 3— gramが用いられる。

[0003] 従来、このような言語モデルを作成するには、音声認識を適用したいタスクに対して大量の文例を収集する必要があり、そのコストは莫大なものになった。そのため、収集すべき文例の数を抑えて、認識すべき発話の話題に適応可能な言語モデルを作成することが考えられている (例えば、特許文献 1および特許文献 2参照。 )₀

[0004] 上記特許文献 1では、上記のような言語モデルを作成する方法として、音声認識用の言語モデルの話題適応技術が開示されて、る。

[0005] 図 1は、上記特許文献 1に記載された従来の話題適応技術を利用した音声入力検索システムの動作を示すフローチャートである。

[0006] 図 1に示すように、ユーザが検索要求を発話すると、音声入力検索システムは、音響モデル 1012と言語モデル 1014を用いて音声認識を行い (ステップ S1016)、書き起こしを生成する（ステップ S1018)。ここで、言語モデル 1014はテキストデータべース 1020に基づいて作成されている。次に、音声入力検索システムは、書き起こされた検索要求を用いてテキスト検索を実行し (ステップ S 1022)、検索結果を関連するものから順位付けて出力する (ステップ S1024)。次に、音声入力検索システムは、検索結果の上位文書力も情報を取得してモデリングを行い (ステップ S1026)、音声認識の言語モデル 1014を洗練する。また、音声入力検索システムは、検索結果をパーソナルコンピュータの表示画面などの表示部に表示する（ステップ S 1028)。 [0007] また、上記特許文献 2では、テキストデータベースを大量に集めるのではなぐ既存の複数の言語モデル（他のタスクのテキストデータから作成された言語モデル）から得られる情報を使ってターゲットとなる特定タスクの言語モデルを作成する発明が公開されている。

[0008] 図 2は、上記特許文献 2の音声認識装置の言語モデル生成部によって行われる処理動作を説明するための説明図である。

[0009] この言語モデル生成部は、複数の言語モデル (他のタスクのテキストデータ力作成された言語モデル)から得られる連接頻度の分布 (事前情報）と、ターゲットである特定タスク (特定タスクのテキストデータ）につ、ての数千単語からなる文例を (特許文献 2 11ページの第 19欄 3〜5行目）集めた結果力得られる連接頻度 (事後情報）とを用いて、言語予測確率（出現単語予測確率)を求める。即ち、言語モデル生成部は、特定タスクに対応した言語モデルを生成する。そして特許文献 2の音声認識装置は、この言語モデル生成部で生成された言語モデルを用いて音声認識を行う特許文献 1：特開 2003 - 36093号公報

特許文献 2 :特開平 10— 198395号公報

発明の開示

発明が解決しょうとする課題

[0010] しかしながら、 AV (Audio Video)データの字幕化であると力、人の会話の音声認識

(たとえばホームページやテレビ番組、電子番組表のようなデータを閲覧しながらの会話の認識)を行う場合、その話題は逐次変化をしていくといつた特徴があるため、上記特許文献 1および 2の技術では、その話題の変化にリアルタイムに言語モデルを適応させることができず、音声認識を適切に行えないという問題がある。

[0011] 上記特許文献 1に記載の技術では、新たな話題の言語モデルを作成するためには、認識結果を用いて情報検索を行い、その結果に対して形態素解析などを含めた処理を必要とする。つまり、既存の言語モデルの内容を洗練して新たな話題に適応させるために、大量の認識結果とそれに対する複雑な処理を必要とする。そのため、リアルタイムの適応は困難である。 [0012] また、上記特許文献 2に記載の技術であっても、ターゲットとなるタスクの文例を数千単語程度集める必要があるため、言語モデルを話題の変化にリアルタイムに適応させることができない。

[0013] そこで、本発明は、カゝかる問題に鑑みてなされたものであって、話題が変化してもその話題に対応した言語モデル（出現単語予測確率)をリアルタイムに生成することにより音声認識を適切に行う音声認識装置および音声認識方法を提供することを目的とする。

課題を解決するための手段

[0014] 上記目的を達成するために、本発明に係る音声認識装置は、音声を取得して認識する音声認識装置であって、語彙を取得する語彙取得手段と、音声を認識するための複数種の言語モデルを格納する言語モデル格納手段と、前記言語モデルごと〖こ当該言語モデルの特徴を示すタグ情報を格納するタグ情報格納手段と、前記語彙取得手段で取得された語彙と、前記各言語モデルのタグ情報との関連性に基づ、て、前記語彙取得手段で取得された語彙に応じた前記各言語モデルの重みを組合せ係数として算出する組合せ係数算出手段と、前記組合せ係数算出手段により算出された組合せ係数に応じて前記各言語モデルを組み合わせることにより、前記音声において所定の単語が出現する予測確率を算出する予測確率算出手段と、前記予測確率算出手段により算出された予測確率を用いて前記音声を認識する認識手段とを備えることを特徴とする。

[0015] これにより、例えばユーザによる発話の話題が変化したときには、その変化した話題に対応する語彙を取得することで、その話題に応じた各言語モデルの組合せ係数が算出されるため、その算出された組合せ係数を用いて各言語モデルを組み合わせることで、従来例のように、大量の文例を収集したり複雑な言語処理などを行ったりすることなぐその話題に対応した予測確率（出現単語予測確率)をリアルタイムに算出することができる。即ち、話題が変化してもその話題に対応した言語モデルを擬似的にリアルタイムに生成することができ、その結果、音声認識を適切に行うことができる。さらに、話題に対応した語彙とタグ情報との関連性に基づいて組合せ係数が算出されるため、話題に対して適切な言語モデルを生成することができる。 [0016] また、前記語彙取得手段は、前記認識手段によって認識された音声に対応する語彙を取得することを特徴としてもょ、。

[0017] これにより、認識された音声に対応する語彙は、ユーザによる発話の話題を示しているため、ユーザによる発話が行われてその話題が変化しても、話題が変化するごとに、その変化した話題に対応した言語モデルをリアルタイムに生成することができ、ユーザによる発話を適切に認識することができる。

[0018] また、前記音声認識装置は、さらに、複数種の語彙と前記各タグ情報との間の関連度を保持している関連度保持手段と、前記関連度保持手段に保持されている各関連度を用いて、前記語彙取得手段で取得された語彙に対する前記タグ情報ごとの関連度を導出する関連度導出手段と、前記タグ情報ごとに当該タグ情報の前記言語モデルに対する重要度を保持してヽる重要度保持手段とを備え、前記組合せ係数算出手段は、前記関連度導出手段で導出された各関連度と、前記重要度保持手段で保持されている重要度とを用いることにより、前記各言語モデルの組合せ係数を算出し、前記予測確率算出手段は、前記言語モデルごとに導出される、前記所定の単語が出現する特定モデル予測確率と、前記言語モデルごとの組合せ係数とを用いることにより、前記予測確率を算出することを特徴としてもよい。

[0019] これにより、関連度および重要度によって、話題と各言語モデルとの間の関連付けを的確に行うことができ、話題に対する各言語モデルの組合せ係数をより適切に算出することができる。さらに、複数種の語彙と各タグ情報との間の関連度が保持されているため、その保持されている関連度の語彙であれば、各言語モデルに含まれる語彙に関わらず、各言語モデルの組合せ係数を算出することができ、多くの語彙つまり話題に対応した言語モデルを生成することができる。

[0020] また、前記組合せ係数算出手段は、前記語彙取得手段で 1つの語彙が取得されるごとに、前記各言語モデルの組合せ係数を算出することを特徴としてもよい。

[0021] これにより、ユーザによる発話の話題の変化に対して、各言語モデルの組合せ係数を迅速に追随させることができ、話題が逐次変化しても、その発話による音声を適切に認識することができる。

[0022] また、前記組合せ係数算出手段は、前記語彙取得手段で複数の語彙が取得されるごとに、前記各言語モデルの組合せ係数を算出することを特徴としてもよい。

[0023] これにより、ユーザによる発話の話題が頻繁に変化することよって、各言語モデルの組合せ係数が過剰に変更されてしまうのを防ぐことができ、その発話による音声を適切に認識することができる。

[0024] また、前記組合せ係数算出手段は、前記語彙取得手段で取得された複数の語彙と、前記各言語モデルのタグ情報との関連性に基づいて、前記複数の語彙に応じた前記各言語モデルの重みを組合せ係数として算出することを特徴としもよ、。

[0025] これにより、ユーザによる発話に含まれる語彙ごとに、各言語モデルの組合せ係数が必要以上に急激に変更されることが防止されるため、その発話の全体的な話題に対応した組合せ係数を算出することができる。その結果、その発話による音声を適切に認識することができる。

[0026] また、前記音声認識装置は、さらに、ユーザの閲覧している電子データ、およびュ一ザに関するプロファイル情報のうち少なくとも 1つ力キーワードを抽出するキーヮード抽出手段を備え、前記語彙取得手段は、前記キーワード抽出手段によって抽出されたキーワードを前記語彙として取得することを特徴としてもよい。

[0027] 例えば、ユーザが電子番組表やホームページを電子データとして閲覧しているときには、ユーザはその電子番糸且表などに含まれるキーワードを話題にして発話していると仮定できるため、そのキーワードが上述の語彙として取得されることによって、その話題に対応した言語モデルを生成することができ、音声認識を適切に行うことができる。同様に、ユーザは自らに関することを話題にして発話していることが多いため、プ口ファイル情報に含まれるキーワードが上述の語彙として取得されることによって、その話題に対応した言語モデルを生成することができる。

[0028] なお、本発明は、このような音声認識装置として実現することができるだけでなぐその方法やプログラム、そのプログラムを格納する記憶媒体としても実現することができる。

発明の効果

[0029] 本発明の音声認識装置は、大量の文例を収集したり複雑な言語処理などを行ったりすることなぐその話題に対応した予測確率（出現単語予測確率)をリアルタイム〖こ算出することができる。即ち、話題が変化してもその話題に対応した言語モデルをリアルタイムに生成することができ、その結果、音声認識を適切に行うことができる。さらに、話題に対応した語彙とタグ情報との関連性に基づいて組合せ係数が算出されるため、話題に対して適切な言語モデルを生成することができる。

図面の簡単な説明

[0030] [図 1]図 1は、従来の音声入力検索システムの動作を示すフローチャートである。

[図 2]図 2は、従来の音声認識装置の言語モデル生成部によって行われる処理動作を説明するための説明図である。

[図 3]図 3は、本発明の実施の形態における音声認識装置の言語モデル生成装置を示す構成図である。

[図 4]図 4は、同上の言語モデル格納部およびタグ情報格納部に格納されて!、る情報を示す図である。

[図 5]図 5は、同上の共起情報の内容を示す図である。

[図 6]図 6は、同上の言語モデル生成装置による言語モデル作成の動作を示すフロ一チャートである。

[図 7]図 7は、同上の音声認識装置の構成図である。

[図 8]図 8は、同上の変形例 1に係る音声認識装置の構成図である。

[図 9]図 9は、同上の変形例 1に係る音声認識装置の動作を示すフローチャートである。

[図 10]図 10は、同上の変形例 2に係る音声認識装置の構成図である。

[図 11]図 11は、同上の変形例 3に係る音声認識装置の構成図である。

[図 12]図 12は、同上の変形例 4に係る音声認識装置の構成図である。

[図 13]図 13は、同上の変形例 5に係る音声認識装置の構成図である。

[図 14]図 14は、同上の変形例 6に係る音声認識装置の構成図である。

符号の説明

[0031] 101 語彙指定部

102 関連度算出部

103 組合せ係数算出部 104 言語確率計算部

105 言語モデル情報格納部

106 言語モデル格納部

107 タグ情報格納部

108 対象語彙指定部

111 語彙情報信号

112 タグ情報関連度信号

113 組合せ係数信号

114 適応言語確率信号

115 重要度信号

116 タグ情報信号

117 音声認識結果出力部

119 特定モデル予測確率信号

300 音声入力部

301 音声認識部

302 結果出力部

303 キーワード抽出部

304 キーワード送信部

311 音声認識出力信号

313 キーワード信号

314 入力音声信号

501 電子番組表

502 番組関連ホームページ

503 テキスト入力部

511 電子番組表信号

512 番組関連ホームページ信号

513 テキスト入力信号

601 映像受像部 602 文字認識部

611 映像信号

612 文字認識結果信号

701 プロファイル情報格納部

711 プロファイル情報信号

発明を実施するための最良の形態

[0032] 以下、本発明の実施の形態について、図面を参照しながら説明する。

本実施の形態における音声認識装置は、言語モデル生成装置を備え、その言語モデル生成装置により算出された出現単語予測確率に基づいた音声認識を行う。

[0033] 本実施の形態における音声認識装置の言語モデル生成装置は、文という単位が様々な話題の組み合わせによって表現できると!、う特徴に注目し、その話題を表す語彙をもとに、予め用意された言語モデルを組み合わせて出現単語予測確率を計算すること〖こよって、任意の話題に対応可能な言語モデルを生成する。例えば、「話しことばの音声認識技術が確立され、聴覚障害者が希望して!/、た字幕放送がすべての番組で実現されるようになった」という文を考えると、この文が「音声認識」に関する話題と「聴覚障害」に関する話題と、更には「放送」に関する話題力も構成されていると言える。したがって、この場合、言語モデル生成装置は、「音声認識」や「聴覚障害」や「放送」という語彙を指定し、この語彙をもとに予め用意された言語モデルを組み合わせ、任意の単語の連接する確率（出現単語予測確率)を得る。

[0034] すなわち、本実施の形態における音声認識装置は、既存の言語モデルを組み合わせるための係数 (組合せ係数)を、指定した語彙に応じて逐次的にリアルタイム〖こ更新することで、話題の変化に応じてその話題に対応した出現単語予測確率を算出し、つまり、擬似的に話題に適応した言語モデルを作成し、入力音声の適切な認識を行うものである。

[0035] 図 3は、本発明の実施の形態 1における言語モデル生成装置の構成を示す構成図である。

[0036] この言語モデル生成装置は、 1つまたは複数の語彙を受け付け、あら力じめ用意した一つ以上の言語モデルをその受け付けた語彙に応じて組み合わせて次単語の出現単語予測確率を算出する。これにより、その受け付けた語彙の内容に関わる発話の適切な認識が可能になる。

[0037] 本実施の形態の言語モデル生成装置は、語彙指定部 101と、関連度算出部 102と、組合せ係数算出部 103と、言語確率計算部 104と、言語モデル情報格納部 105とを備える。

[0038] 言語モデル情報格納部 105は、複数の言語モデルを格納している言語モデル格納部 106と、各言語モデルの話題性の特徴を表す語彙 (以下、タグ情報という）を格納して、るタグ情報格納部 107とを備えて、る。

[0039] 図 4は、言語モデル格納部 106およびタグ情報格納部 107に格納されている情報を示す図である。

[0040] 言語モデル格納部 106は、複数種の言語モデルを格納してヽる。例えば、言語モデル格納部 106は、技術-ユースに対応した言語モデル MDL1、福祉技術に対応した言語モデル MDL2、および音楽情報に対応した言語モデル MDL3などを格納している。そして、言語モデル格納部 106は、各言語モデルに対応した出現単語予測確率 P (Wj I Wj— 1)を示す特定モデル予測確率信号 119を出力する。ここで、出現単語予測確率 P (Wj I Wj— 1)は、単語 Wj— 1の後に単語 Wjが続く確率を意味する。

[0041] タグ情報格納部 107には、上述の言語モデルごとにその言語モデルの特徴を表すタグ情報と、そのタグ情報の重要度とが格納されている。ここで、上述の重要度は、タグ情報とそのタグ情報に対応する言語モデルとの関係の程度を示し、例えば 1未満の数値によって示される。例えば、言語モデル MDL1に対して、タグ情報「ニュース」および「技術」が格納されるとともに、そのタグ情報「ニュース」の重要度「0. 4」と、タグ情報「技術」の重要度「0. 3」とが格納されている。そして、タグ情報格納部 107は、そのタグ情報を示すタグ情報信号 116を関連度算出部 102に出力するとともに、各タグ情報の言語モデルに対する重要度を示す重要度信号 115を組合せ係数算出部 1 03に出力する。

[0042] 語彙指定部 101は、話題性の特徴を表す語彙を受け付けて、その語彙を示す語彙情報信号 111を出力することにより、その語彙を関連度算出部 102に指定する。 [0043] 対象語彙指定部 108は、出現単語予測確率の算出対象となる語彙を示す対象語彙信号 118を言語確率計算部 104に対して出力する。対象語彙指定部 108は、例えば、音声認識結果のいくつかの候補となる語彙を、確率の算出対象とし、その語彙を示す対象語彙信号 118を出力する。

[0044] 関連度算出部 102は、 2つの単語が同一文章中に共に出現する程度 (個別関連度 )を示す共起情報 102aを保持している。

[0045] 図 5は、共起情報 102aの内容を示す図である。

この共起情報 102aは、複数種の語彙の組と、各組における語彙間の個別関連度とを示す。例えば、共起情報 102aは、「音声認識」および「技術」の語彙の組と、その組における語彙間の個別関連度「0. 8」とを示すとともに、「音声認識」および「字幕」の語彙の組と、その組における語彙間の個別関連度「0. 5」とを示す。

[0046] また、関連度算出部 102は、語彙指定部 101から出力される語彙情報信号 111とタグ情報格納部 107から出力されるタグ情報信号 116とに基づいて、語彙指定部 10 1で指定された語彙ごとに、その語彙に対する各タグ情報の個別関連度を特定する。ここで、関連度算出部 102は、上述の個別関連度を特定するときには、共起情報 10 2aを参照する。そして関連度算出部 102は、その共起情報 102aに示される語彙の組に含まれる一方の語彙をタグ情報と見なすことで、指定された語彙とタグ情報との個別関連度を特定する。そして、関連度算出部 102は、その特定した個別関連度から、語彙指定部 101で指定された全ての語彙に対する各タグ情報の関連度 (関連度 a )を求め、その求めた関連度を示すタグ情報関連度信号 112を出力する。

[0047] 組合せ係数算出部 103は、言語モデル格納部 106に格納されている言語モデルの重要度を表わす重要度信号 115とタグ情報関連度信号 112とから、語彙指定部 1 01で受け付けられた語彙に対応した各言語モデルの組合せ係数を算出し、その組合せ係数を示す組合せ係数信号 113を出力する。

[0048] 言語確率計算部 104は、言語モデル格納部 106に格納される各言語モデルの出現単語予測確率 P (Wj I Wj— 1)を示す特定モデル予測確率信号 119と、組合せ係数算出部 103から出力された組合せ係数信号 113とを取得する。各言語モデルの特定モデル予測確率信号 119と組合せ係数信号 113とを取得した言語確率計算部 104は、対象語彙指定部 108から出力された対象語彙信号 118の示す各語彙に対して、話題に適応した出現単語予測確率を算出し、その話題に適応した出現単語予測確率を示す適応言語確率信号 114を出力する。

[0049] 図 6は、上述の言語モデル生成装置の動作を示すフローチャートである。

まず、語彙指定部 101は、発話の内容に関わる語彙、たとえば「音声認識」や「聴覚障害」を受け付けて、関連度算出部 102に対してそれらの語彙を指定する (ステツプ S202)。

[0050] そして、関連度算出部 102は、指定された語彙をもとにタグ情報格納部 107に格納されている各タグ情報の関連度 ocを算出する (ステップ S 203)。

[0051] 例えば、言語モデル MDL1に対してタグ情報「ニュース」と「技術」とがあり、言語モデル MDL2に対してタグ情報「福祉」と「技術」とがある場合、関連度算出部 102は、まず、語彙指定部 101で指定された語彙「音声認識」および「聴覚障害」のそれぞれに対して、タグ情報格納部 107に格納されているタグ情報「ニュース」、「技術」および「福祉」などの各タグ情報が、どの程度関連して、るかを示す個別関連度 (指定語彙ごとの関連度)を特定する。この個別関連度は、共起情報 102aに基づいて特定される。

[0052] 本発明のポイントは、タグ情報を介在させて、受け付けられた語彙力ゝら言語モデルの組み合わせ係数をもとめることにある。ここにおいて、関連度 αは、その受け付けられた語彙とタグ情報との間の関連性を表現したものであって、話題の展開はこのタグ情報によって予想される。例えば、単語の共起関係は、単語の同時出現傾向を表現しているため、このような話題の展開に関わる情報を持っていると考えられる。そこで、関連度 αは共起情報 102aをもちいて以下のように算出できる。

[0053] 関連度算出部 102は、指定語彙を Word (k= 1〜K)とし、タグ情報を TAG (1= 1 k 1

〜L)とすると、 TAGごとの全ての Wordに対する関連度ひ（TAG )を以下の数式 1

1 k 1

により算出する。

[0054] [数 1] (TAG_})= R(Wo r d_k, TAG^

k = 1 ここで関数 Rは、共起情報 102aで定義される個別関連度、即ち、 Wordと TAGと k 1 の個別関連度を示す。

[0055] ここで、タグ情報は、各言語モデルに含まれる名詞と定義することが可能であるが、望 ¾しく ίま tfidf (term frequency inverse document frequency)などの旨標を使って特定される、各言語モデルに特異的な単語を、タグ情報として用意しておくのがよい

[0056] また、共起情報 102aは、新聞記事やインターネットなどの、より一般的な情報を用いて作成しておくことが望ましい。さらに、共起関係などに関しては、言語のスパースネス性の問題で、 Wordと TAGとの間の関係が定義されていない場合もある。その k 1

ようなことを考慮し、以下の数式 2に示すように、 2次の共起関係まで利用して関連度 a (TAG)を算出してもよい。

1

[0057] [数 2]

K

(TAG₁ Wlx 〉：R(Wo r d_k， TAG])

k = 1

+(l - W l)x V ¾R(Wo r d_k， Wo r d_m)xR(Wo r d_m， TAG,) ここで、 Wlは、数式 2の第 1項か第 2項のどちらの項をどれだけ考慮するかを示す重み係数である。また、上記関数 Rの個別関連度に代えて、シソーラス情報や因果関係などを用いることも可能である。

[0058] 上述のような数式 2を用いることにより、指定語彙 (Word )とタグ情報 (TAG)との間 k 1 の個別関連度が共起情報 102aに登録されていなくても、 W1 = 0とすることで、指定語彙 (Word )と語彙 (Word )との間の個別関連度と、語彙 (Word )とタグ情報 (TA k m m

G)との間の個別関連度とが共起情報 102aに登録されていれば、関連度 αを算出

1

することができる。例えば、図 5に示すように、指定語彙「技術」とタグ情報「字幕」との間の個別関連度が共起情報 102aに登録されていなくても、指定語彙「技術」と語彙「音声認識」との間の個別関連度と、語彙「音声認識」とタグ情報「字幕」との間の個別関連度が共起情報 102aに登録されていれば、そのタグ情報「字幕」の指定語彙「技術」に対する関連度 Oを算出することができる。

[0059] すなわち、関連度算出部 102は、言語モデル格納部 106に格納された各言語モデルの特徴を表す各タグ情報が、語彙指定部 101で指定された語彙に対してどれだけ重要かを示す関連度 OCを算出している。タグ情報を介在させるメリットの 1つとして、語彙指定部 101で指定できる語彙数を言語モデルの語彙数よりも多くすることができることが挙げられる。具体的に、音声認識の対象として用いることが可能な単語数は性能の面力も見ても 10万単語程度であるのに対して、本発明の方法を使えば、語彙指定部 101で指定される語彙とタグ情報との共起関係さえあれば、その指定される語彙数を、言語モデルの語彙数にとらわれずに例えば 100万語にすることができる。

[0060] 次に、組合せ係数算出部 103は、上記各タグ情報（「ニュース」や、「福祉」、「技術」など)の関連度 (Xをもとに、語彙指定部 101で指定された語彙に応じた各言語モデルの組み合わせ係数 γを算出する (ステップ S204)。組み合わせ係数 γの計算のために、タグ情報格納部 107には、各タグ情報と各言語モデルの関係の程度が重要度 βとして予め定義されている。たとえば、言語モデル MDL1に対して、タグ情報「-ュース」の重要度「0. 4」が定義されている。この重要度 j8を用いることで、語彙指定部 101で指定された語彙で特定される話題の特徴に合わせた出現単語予測確率の算出ができる。なお、このような重要度の指標として、上述の tfidfを用いてもよい。

[0061] ここで、 n番目の言語モデルを N— gramとし、この言語モデルとタグ情報（TAG)と n 1 の重要度、つまり tfidfを |8 (TAG ,N— gram )とする。このように定義すると、 n番目

1 n

の言語モデル (N— gram )に対する組合せ係数 γ を、次の数式 3によって求めることが出来る。

[0062] [数 3]

A G すなわち、組合せ係数算出部 103は、関連度算出部 102から出力されるタグ情報関連度信号 112 (関連度 α )とタグ情報格納部 107から出力される重要度信号 115 ( 重要度 β )とによって、語彙指定部 101で指定された語彙 (「音声認識」および「聴覚障害」）に応じた各言語モデルの組み合せの重み (各言語モデルが指定語彙に対してどれだけかかわることができるカゝ)を示す組み合せ係数 γを算出する。

[0063] 次に、言語確率計算部 104は、言語モデル格納部 106に格納された各言語モデルの出現単語予測確率を示す特定モデル予測確率信号 119と、対象語彙指定部 1 08で指定された語彙を示す対象語彙信号 118と、組合せ係数信号 113 (組合せ係数 γ )とを用いて、出現単語予測確率を算出して適応言語確率信号 114を出力する (ステップ S205)。

[0064] このような出現単語予測確率の算出には、数式 3で求めた組み合わせ係数 γ を用いる。言語確率計算部 104は、単語 Wj— 1の後に単語 Wj (対象語彙指定部 108で指定された語彙)が出現する出現単語予測確率を、数式 4を用いて算出する。なお、ここでは言語モデルとして、一つ前の単語から次単語を予測する 2— gramを想定した力任意の次数の N— gram (3— gram、 4— gramなど）や、クラス N— gram、さらには FSA (Finite State Automaton)のような言語モデルも利用することができる。

[0065] [数 4] p(w j I w j - 1

x P_n(w j I w j — i )

n = 1 なお、 P。(Wj I Wj— 1)は、 n番目の言語モデルの出現単語予測確率を示す。

[0066] 以上のように本実施の形態によれば、語彙指定部 101で指定された語彙をもとに、関連度算出部 102で数式 1または数式 2を用いて各タグ情報の関連度 ocを求め、組合せ係数算出部 103で、各タグ情報と各言語モデルの間の重要度 βと関連度 exとの積を数式 3によって算出して組合せ係数 γを求める。次に対象語彙指定部 108で指定された語彙 (ヒストリ一と対象語彙)に対する出現単語予測確率が、各言語モデルの特定モデル予測確率信号 119と組合せ係数信号 113とから言語確率計算部 10 4で数式 4によって算出され、その算出結果が適応言語確率信号 114として出力される。

[0067] すなわち、言語確率計算部 104で話題に適応した出現単語予測確率 P (Wj I Wj —1)を計算することによって、対象語彙指定部 108から指定されるいくつかの語彙の候補から、入力音声に対して最適な候補を見つけることができ、指定された語彙の示す話題に応じた言語モデルが擬似的に作成されることになる。

[0068] 図 7は、本実施の形態における音声認識装置の構成図である。

本実施の形態における音声認識装置は、上述の言語モデル生成装置と、音声入力部 300と、音声認識部 301と、音声認識結果出力部 117とを備えている。

[0069] 音声入力部 300は、音声 (発話)を受け付けてその音声を入力音声信号 314として音声認識部 301に出力する。

[0070] 音声認識部 301は、入力音声信号 314に対して音声認識処理を行い、音声に対応する語彙の各候補を示す上述の対象語彙信号 118を言語確率計算部 104に出力する。さらに、音声認識部 301は、言語確率計算部 104で算出された上記各候補の出現単語予測確率を示す適応言語確率信号 114を取得し、その適応言語確率信号 114を言語モデルとして利用する。即ち、音声認識部 301は、上記各候補の出現単語予測確率に基づ、て、その各候補の中から音声に対応する語彙の絞込みを行う。そして、音声認識部 301は、その絞込みによって得られた語彙を示す音声認識出力信号 311を音声認識結果出力部 117に対して出力する。

[0071] 音声認識結果出力部 117は、ディスプレイや機器制御系などを具備し、音声認識出力信号 311により示される語彙を表示する。

[0072] 上述のように本実施の形態によれば、 1つ以上の語彙を語彙指定部 101に指定するだけで、指定された語彙をもとに各タグ情報の関連度 (Xを関連度算出部 102で求め、さらに各タグ情報と各言語モデルとの重要度 β力ゝら各言語モデルの組合せ係数 yを組合せ係数算出部 103で求め、その組合せ係数 γをもとに複数の言語モデルを組合せて出現単語予測確率を言語確率計算部 104で求める。これにより、得られた出現単語予測確率を話題に適応可能な言語モデルとして利用できる。したがって、話題に適応した音声認識結果が音声認識部 301で瞬時に得られる。

[0073] つまり、本実施の形態では、例えばユーザによる発話の話題が変化したときには、その変化した話題に対応する語彙を取得することで、その話題に応じた各言語モデルの組合せ係数が算出されるため、その算出された組合せ係数を用いて各言語モデルを組み合わせることで、従来例のように、大量の文例を収集したり複雑な言語処理などを行ったりすることなぐその話題に対応した出現単語予測確率をリアルタイムに算出することができる。即ち、話題が変化してもその話題に対応した言語モデルをリアルタイムに生成することができ、その結果、音声認識を適切に行うことができる。さらに、話題に対応した語彙とタグ情報との関連性に基づいて組合せ係数が算出されるため、話題に対して適切な組合せ係数を算出することができる。

[0074] (変形例 1)

ここで、本実施の形態における音声認識装置の第 1の変形例について説明する。

[0075] 図 8は、本変形例に係る音声認識装置の構成図である。

本変形例に係る音声認識装置は、語彙指定部 101で受け付ける語彙に音声認識部 301の認識結果を利用する。これにより、音声認識が認識結果のフィードバックを受けて、逐次的に組合せ係数 γが変更されることで、動的に話題に適応した音声認識が可能になる。これは、本発明の組み合わせ係数算出方法が高々一語の語彙を指定するだけで、その後にその語彙に関係する言語モデルを瞬時に構成できるという特徴を持っためであり、逐次的な話題の変化に瞬時に対応することが可能である。

[0076] 本変形例に係る音声認識装置は、図 7に示す音声認識装置の各構成要素を備えるとともに、結果出力部 302とキーワード抽出部 303とを備えている。

[0077] 結果出力部 302は、音声認識部 301から出力される音声認識出力信号 311を受けて、その音声認識出力信号 311を認識結果信号 312として音声認識結果出力部 11 7とキーワード抽出部 303へ出力する。

[0078] キーワード抽出部 303は、結果出力部 302から出力される認識結果信号 312を受けて、その認識結果信号 312からキーワードとなる語彙を抽出し、その語彙 (キーヮード）を示すキーワード信号 313を語彙指定部 101に出力する。

[0079] そして、語彙指定部 101は、キーワード抽出部 303から出力されるキーワード信号 3 13の示す語彙を受け付ける。

[0080] 図 9は、本変形例に係る音声認識装置の動作を示すフローチャートである。まず、音声認識部 301は、音声入力部 300から出力される入力音声信号 314に基づいて、音声入力部 300で音声が検出されたか否かを判断し (ステップ S402)、検出されたと判断したときには (ステップ S402の Y)、その検出された音声の認識を行う (ステップ S403)。一方、検出されな力つたと判断したときには (ステップ S402の N)、音声認識部 301は、例えばユーザによる操作などに基づいて終了の指示があつたか否かを判断する (ステップ S409)。そして、音声認識部 301によって終了の指示があつたと判断されたときには (ステップ S409の Y)、音声認識装置は全ての処理を終了し、指示がな力つたと判断されたときには (ステップ S409の N)、音声認識装置はステップ S402からの処理を繰り返し実行する。

[0081] ステップ S403で音声が認識されると、音声認識結果出力部 117は、その音声認識部 301によって認識された結果を、結果出力部 302を介して音声認識部 301から得て、その結果を例えばディスプレイに表示させる（ステップ S404)。さらに、キーワード抽出部 303は、その認識結果から、話題に関する情報をもつキーワードを抽出し (ステツプ S405)、その抽出したキーワードを語彙指定部 101に指定する。即ち、語彙指定部 101は、このように指定されたキーワードを語彙として受け付けて、その語彙を関連度算出部 102に指定する (ステップ S406)。このキーワード抽出部 303でのキーヮードの抽出は、例えば、認識結果力名詞のみを抜き出すとすることで実現できる。また、抽出したキーワードの類似語や概念語を指定することで共起関係のスパースネス性を解消することも有効である。

[0082] 次に、関連度算出部 102は、語彙指定部 101に指定された語彙をもとに、各タグ情報の関連度 αを算出する (ステップ S407)。続いて、各タグ情報と各言語モデルの間に定義された重要度 13と、関連度 αとを用いて、組合せ係数算出部 103は、各言語モデルの組合せ係数 γを算出し (ステップ S408)、その算出した組合せ係数 γをステップ S402及びステップ S403の処理に反映させる。即ち、再び、ステップ S402 で音声が検出されたと判断されると、音声認識部 301は、上記算出された組合せ係数 γをもとに複数の言語モデルによる出現単語予測確率を数式 4を用いて算出して、その出現単語予測確率を利用して音声認識を行う（ステップ S403)。

[0083] 以上の動作を行うことにより、 1発話ごと (音声に対応する 1つの語彙が認識されるごと）に各言語モデルの組合せ係数 γを変えることができ、動的に話題に適応可能な音声認識装置を実現できる。

[0084] 具体的に例えば、図 4に示すように、「技術-ユース」や、「福祉技術」、「音楽情報」、「バラエティー情報」に関わる言語モデルがあるとする。また「技術-ユース」の言語モデルに対しては、タグ情報「ニュース」および「技術」がそれぞれ重要度 0. 4と 0. 3 で格納されており、「福祉技術」の言語モデルに対しては、タグ情報「福祉」と「技術」がそれぞれ重要度 0. 7と 0. 3で格納されているとする。その他の言語モデルに対しても図 4に示すとおりにタグ情報と重要度が格納されているとする。このとき、以下のような音声が流れてきたとする。「話しことばの音声認識技術が確立され、聴覚障害者が希望してヽた字幕放送がすべての番組で実現される見込みがつきました。また字幕を利用して、ユーザが予め登録しておいたキーワードをもとに番組を推薦してくれるサービスも出現しています。例えば、音楽番組が好きな人力ピア入ォーケストラなどのキーワードを登録しておくことで、該当する番組のシーンのリストが演奏者、曲名などの情報とともにメールで送られてくるというサービスです」。本発明を使ってこの音声を認識すると次のようになる。

[0085] まず、音声認識装置は、組み合わせ係数をすベての言語モデルに対して均等にし、「話しことばの音声認識技術が確立され」という入力音声に対して「音声認識」を認識する。「音声認識」は「技術」と関係があるので、言語モデル MDL1, MDL2に対応付けられたタグ情報「技術」と「音声認識」の間の関連度 Oは大きな値をもつ。ここで仮に、共起情報 102aに基づいて、その関連度ひが 0. 8であるとする。また、タグ情報「技術」と言語モデル MDL1, MDL2との間には 0. 3の重要度が定義されてヽる。した力つて、糸且み合わせ係数 γは、 y =0. 8 X 0. 3 = 0. 24となり、音声認識装置は、その組合せ係数 γと言語モデル MDL1, MDL2を利用した音声の認識を行う。その結果、「福祉技術」の言語モデル MDL2に対しても重みをおいていることより、続、て入力される音声「聴覚障害者が希望して、た字幕放送がすべての番組で実現される見込みがつきました。」に対して認識が確実に行えるようになる。

[0086] 続いて、「ユーザが予め登録しておいたキーワードをもとに番組を推薦してくれるサ一ビスも出現しています。」という音声の入力により「推薦」が認識されると、「推薦」と「情報」の間には、「推薦するものは情報である」という共起関係が存在するため、タグ情報「情報」に対応付けられた言語モデル MDL3, MDLJの組み合わせ係数が算出できる。これにより、続く音声入力「例えば、音楽番組が好きな人が、ピア入ォーケストラなどのキーワードを登録しておくことで、該当する番組のシーンのリストが演奏者、曲名などの情報とともにメールで送られてくるというサービスです」を、「音楽情報」に対する言語モデル MDL3を用いることで精度よく認識することが可能になる。

[0087] 本変形例では組み合わせ係数の更新に際して、抽出されたキーワードを用いて行うとしたが、組み合わせ係数を算出する際に、抽出された過去のキーワードも合わせて複数のキーワードを使用してもよい。この場合には、必要以上に急激な言語モデルの変化を抑制することができて有効である。

[0088] (変形例 2)

ここで、本実施の形態における音声認識装置の第 2の変形例について説明する。

[0089] 図 10は、本変形例に係る音声認識装置の構成図である。

本変形例に係る音声認識装置は、上記変形例 1の音声認識装置の各構成要素を備えるとともに、キーワード送信部 304を備えている。このキーワード送信部 304は、キーワード抽出部 303と語彙指定部 101との間に設けられている。

[0090] キーワード送信部 304は、キーワード抽出部 303からキーワード信号 313を取得して、そのキーワード信号 313を所定のタイミングで語彙指定部 101に出力する。

[0091] すなわち、上述の変形例 1では、 1発話ごとに組合せ係数 γの更新を行ったが、本変形例では、キーワード送信部 304を設けたことによって、語彙指定部 101に対する語彙の指定のタイミングを制御することができる。例えば、キーワード送信部 304が、キーワード信号 313の語彙指定部 101に対する送信を、 Ν回の発話ごとに行ったり、キーワード (語彙)が所定の個数だけ蓄積された後に行ったりすることにより、適切なタイミングで語彙を指定することができる。ここで、 1回のキーワード信号 313の送信によって語彙指定部 101に指定する語彙は、その送信のタイミングで抽出された 1つのキーワードであっても、その送信時までに抽出されて蓄積された複数のキーワードであってもよい。

[0092] カゝかる構成によれば、語彙指定部 101で受け付けられる語彙を、音声認識部 301 での音声認識の結果力も抽出されたキーワードとすることで、音声認識が認識結果のフィードバックを受け、動的に話題に適応した音声認識が可能になるとともに、その話題への適応のタイミングを適切にすることができる。

[0093] (変形例 3)

ここで、本実施の形態における音声認識装置の第 3の変形例について説明する。

[0094] 図 11は、本変形例に係る音声認識装置の構成図である。

本変形例に係る音声認識装置は、上記実施の形態の図 7に示す音声認識装置の各構成要素を備えるとともに、キーワード抽出部 303aと、テキスト入力部 503とを備える。

[0095] このような音声認識装置は、語彙指定部 101に指定する語彙を、後述する電子番組表 501、番組関連ホームページ 502、およびテキスト情報力も抽出されるキーヮードとするように構成されており、この構成により、電子番組表、番組関連ホームページ、および入力されたテキストに関わる内容の音声認識を行うことができる。つまり、音声認識装置は、電子番組表などに関する内容が話題の対象とされていると仮定し、その話題に適した音声の認識を行う。

[0096] テキスト入力部 503は、例えばユーザによるキーボードの入力操作に基づいてテキスト情報を取得し、そのテキスト情報をテキスト入力信号 513としてキーワード抽出部 303aに出力する。

[0097] キーワード抽出部 303は、電子的に配信される電子番組表 (Electronic Program G uide) 501を電子番組表信号 511として受け取るとともに、番組内容に関するホームページ（電子データ）たる番組関連ホームページ 502を番組関連ホームページ信号 512として受け取り、さらに、テキスト入力部 503からのテキスト入力信号 513を受け取る。具体的に、番組関連ホームページ 502は、電子番組表 501の番組内容に関するホームページ、もしくはテレビ局のホームページに掲載された番組内容に関するホームページなど、ネットワークを通じて入手可能な番組内容を示す電子データである。また、電子番組表 501および番組関連ホームページ 502の内容は、ユーザによる閲覧操作に応じて変更される。

[0098] そして、キーワード抽出部 303は、電子番組表信号 511、番組関連ホームページ信号 512およびテキスト入力信号 513から、語彙指定部 101に指定すべきキーヮード (語彙)を抽出し、そのキーワードを示すキーワード信号 313を語彙指定部 101に出力する。ここで、キーワード抽出部 303は、入力として受けた電子番組表信号 511 、番組関連ホームページ信号 512、およびテキスト入力信号 513に対して形態素解析などの言語処理を施した後、名詞のみを抽出するなどの方法を用いてキーワードの抽出を行う。また、変形例 1のときと同様に、抽出したキーワードの類似語や概念語を出力することで共起関係のスパースネス性を解消することも有効である。

[0099] これにより、ユーザによる閲覧操作や入力操作により、ユーザの閲覧している電子番組表 501の内容や、ユーザの閲覧している番組関連ホームページ 502の内容、ュ一ザの入力しているテキスト情報の内容が変わるごとに、その変更された内容にあわせた音声の認識を行うことが可能になる。すなわち、ユーザの操作に対するフィードノックを利用して、その操作に応じた言語モデルを瞬時に生成することにより、適切な音声の認識を行うことができる。これにより、たとえば過去の電子番組表を参照しな力 Sら関連する話題を認識するなどといったことが可能になる。

[0100] 力かる構成によれば、電子番組表、番組関連ホームページ、および入力されたテキスト情報力も抽出したキーワードを語彙指定部 101に指定することができ、閲覧しているホームページが変わるごとに、電子番組表、番組関連ホームページ、および入力されたテキスト情報の内容に関わる出現単語予測確率を計算でき、その内容の話題に適応した音声認識を行うことができる。なお、ここでは、電子番組表、番組関連ホームページ、および入力されたテキスト情報力もキーワードを抽出するように構成した力 V、ずれか一つだけ力も抽出しても良、ことは言うまでもな!/、。

[0101] 例えば、このような本変形例に係る音声認識装置は、パーソナルコンピュータに組み込まれ、そのパーソナルコンピュータに表示される電子データを閲覧しながら複数のユーザが会話している状況において利用される。具体的に、複数のユーザが例えば料理番組のホームページを閲覧しながら会話して、る場合、パーソナルコンビユータに組み込まれたエージェントは、その料理に関連する会話を、本変形例に係る音声認識装置を用いて適切に認識する。そして、エージェントは、その認識結果に基づ V、て、その会話で表現された例えば寿司などのユーザの関心を示す情報を提示する [0102] (変形例 4)

ここで、本実施の形態における音声認識装置の第 4の変形例について説明する。

[0103] 図 12は、本変形例に係る音声認識装置の構成図である。

本変形例に係る音声認識装置は、上記実施の形態の図 7に示す音声認識装置の各構成要素を備えるとともに、テレビなどの映像を写す映像受像部 601と、映像受像部 601に表示される文字情報に対して文字認識を行う文字認識部 602と、文字認識部 602から出力される文字認識結果信号 612からキーワードを抽出するキーワード抽出部 303bとを備えている。この音声認識装置は、映像受像部 601に表示される文字の内容が話題の対象とされていると仮定し、その話題に適した音声の認識を行う。

[0104] 映像受像部 601は、表示される映像情報を映像信号 611として文字認識部 602〖こ送る。文字認識部 602は、その映像信号 611を取得して、その映像信号 611の示す映像情報に対して文字認識を行う。そして、文字認識部 602は、文字認識結果を文字認識結果信号 612としてキーワード抽出部 303bに送る。キーワード抽出部 303b は、文字認識結果信号 612に対して形態素解析などの処理を行い、その文字認識結果信号 612からキーワード (語彙)を抽出し、そのキーワードを示すキーワード信号 313を語彙指定部 101に送信する。これにより、音声認識装置は、映像受像部 601 の画面上に表示されたテキストの内容に関わる出現単語予測確率を計算して、その内容の話題に適応した音声認識を行うことができる。

[0105] 力かる構成によれば、映像受像部 601の画面上に表示されたキーワードをもとに、このキーワードの内容に応じた音声認識ができるので、例えば、ニュースのタイトルに応じて、その-ユースの内容に沿った音声の認識が実現可能となる。また、キーヮード抽出部 303bによるキーワードの抽出を、字幕にキーワードが出現するごとに行うことにより番組内容にそった会話の認識を行うことが可能である。

[0106] 例えば、このような本変形例に係る音声認識装置は、テレビに組み込まれ、そのテレビに表示される-ユースなどを視聴しながら複数のユーザが会話している状況において利用される。具体的に、複数のユーザが例えば経済の-ユースを視聴しながら会話している場合、そのテレビに組み込まれたエージェントは、その-ユースに関連する会話を、本変形例に係る音声認識装置を用いて適切に認識する。そして、エージェントは、その認識結果に基づいて、その会話で表現された例えば株価などのュ一ザの関心を示す情報を提示する。

[0107] (変形例 5)

ここで、本実施の形態における音声認識装置の第 5の変形例について説明する。

[0108] 図 13は、本変形例に係る音声認識装置の構成図である。

本変形例に係る音声認識装置は、上記実施の形態の図 7に示す音声認識装置の各構成要素を備えるとともに、プロファイル情報を格納するプロファイル情報格納部 7 01と、プロファイル情報格納部 701から出力されるプロファイル情報信号 711からキ一ワードを抽出するキーワード抽出部 303とを備えている。プロファイル情報は、ユーザの嗜好などのユーザに関連する情報であって、プロファイル情報信号 711は、そのプロファイル情報を示す信号である。この音声認識装置は、プロファイル情報の内容が話題の対象とされていると仮定し、その話題に適した音声の認識を行う。

[0109] 本変形例では、プロファイル情報格納部 701から出力されたプロファイル情報信号 711に対して、キーワード抽出部 303が形態素解析などの処理を施すことにより、キ一ワード (語彙)を抽出し、そのキーワードをキーワード信号 313として語彙指定部 10 1に指定することができる。

[0110] 以上のように構成することで、ユーザのプロファイル情報にあわせた話題に適応可能な音声認識が実現できる。例えば、本変形例に係る音声認識装置をチケット予約システムに適用する。ここで、プロファイル情報格納部 701には、ユーザが「クラシック音楽」が好きであることを示すプロファイル情報が蓄積されているとする。この場合、このプロファイル情報の示すキーワード (クラシック音楽)が語彙指定部 101に指定されることにより、クラシック音楽のコンサート予約を行う際に必要となる言語表現に対応した言語モデルを作成することができる。これにより、ユーザの発話の認識がより確実に行えるようになる。

[0111] (変形例 6)

ここで、本実施の形態における音声認識装置の第 6の変形例について説明する。

[0112] 図 14は、本変形例に係る音声認識装置の構成図である。本変形例に係る音声認識装置は、上記実施の形態の図 7に示す音声認識装置の各構成要素を備えるとともに、変形例 3の図 11に示すテキスト入力部 503と、変形例 5の図 13に示すプロファイル情報格納部 701と、キーワード抽出部 303dとを備えている。この音声認識装置は、プロファイル情報や電子番組表の内容が話題の対象とされていると仮定し、その話題に適した音声の認識を行う。

[0113] キーワード抽出部 303dは、プロファイル情報信号 711、電子番糸且表信号 511、番組関連ホームページ信号 512、およびテキスト入力信号 513から、キーワード (語彙）を抽出して、そのキーワードを示すキーワード信号 313を語彙指定部 101に出力する。

[0114] 即ち、本変形例に係る音声認識装置は、変形例 3の音声認識装置の特徴と、変形例 5の音声認識装置の特徴とを兼ね備え、プロファイル情報、電子番組表 501、番組関連ホームページ 502、およびテキスト情報を同時に組み合わせて利用する。

[0115] これにより、本変形例に係る音声認識装置は、例えば、ユーザが「ドラマが好きである」というプロファイル情報と電子番組表をもとに、ドラマに沿った言語モデルを生成することができ、ユーザの発話の認識をより適切に行うことが可能になる。

産業上の利用可能性

[0116] 本発明は、内容を表す少なくとも 1単語の語彙を指定するだけで、その話題に適応した言語モデルを利用できるようになり、その結果、動的に話題に適応可能な音声認識を実現することが可能になり、家電、 AV (Audio Video)機器、パーソナルコンビュータなどの各種機器のユーザインターフェース用音声認識技術や、 AV (Audio Vide o)データに対して文字ィ匕を行う字幕付与装置およびタグ付け装置など等の用途にも適用できる。

Claims

請求の範囲

[1] 音声を取得して認識する音声認識装置であって、

語彙を取得する語彙取得手段と、

音声を認識するための複数種の言語モデルを格納する言語モデル格納手段と、前記言語モデルごとに当該言語モデルの特徴を示すタグ情報を格納するタグ情報格納手段と、

前記語彙取得手段で取得された語彙と、前記各言語モデルのタグ情報との関連性に基づ!/ヽて、前記語彙取得手段で取得された語彙に応じた前記各言語モデルの重みを組合せ係数として算出する組合せ係数算出手段と、

前記組合せ係数算出手段により算出された組合せ係数に応じて前記各言語モデルを組み合わせることにより、前記音声において所定の単語が出現する予測確率を算出する予測確率算出手段と、

前記予測確率算出手段により算出された予測確率を用いて前記音声を認識する認識手段と

を備えることを特徴とする音声認識装置。

[2] 前記語彙取得手段は、

前記認識手段によって認識された音声に対応する語彙を取得する

ことを特徴とする請求項 1記載の音声認識装置。

[3] 前記音声認識装置は、さらに、

複数種の語彙と前記各タグ情報との間の関連度を保持している関連度保持手段と前記関連度保持手段に保持されている各関連度を用いて、前記語彙取得手段で取得された語彙に対する前記タグ情報ごとの関連度を導出する関連度導出手段と、前記タグ情報ごとに当該タグ情報の前記言語モデルに対する重要度を保持している重要度保持手段とを備え、

前記組合せ係数算出手段は、

前記関連度導出手段で導出された各関連度と、前記重要度保持手段で保持されている重要度とを用いることにより、前記各言語モデルの組合せ係数を算出し、前記予測確率算出手段は、

前記言語モデルごとに導出される、前記所定の単語が出現する特定モデル予測確率と、前記言語モデルごとの組合せ係数とを用いることにより、前記予測確率を算出する

ことを特徴とする請求項 2記載の音声認識装置。

[4] 前記組合せ係数算出手段は、前記語彙取得手段で 1つの語彙が取得されるごとに、前記各言語モデルの組合せ係数を算出する

ことを特徴とする請求項 3記載の音声認識装置。

[5] 前記組合せ係数算出手段は、前記語彙取得手段で複数の語彙が取得されるごとに、前記各言語モデルの組合せ係数を算出する

ことを特徴とする請求項 3記載の音声認識装置。

[6] 前記組合せ係数算出手段は、

前記語彙取得手段で取得された複数の語彙と、前記各言語モデルのタグ情報との関連性に基づ！/ヽて、前記複数の語彙に応じた前記各言語モデルの重みを組合せ係数として算出する

ことを特徴とする請求項 3記載の音声認識装置。

[7] 前記音声認識装置は、さらに、

ユーザの閲覧している電子データ、およびユーザに関するプロファイル情報のうち少なくとも 1つ力キーワードを抽出するキーワード抽出手段を備え、

前記語彙取得手段は、前記キーワード抽出手段によって抽出されたキーワードを前記語彙として取得する

ことを特徴とする請求項 1記載の音声認識装置。

[8] 音声を取得して認識する音声認識方法であって、

語彙を取得する語彙取得ステップと、

前記語彙取得ステップで取得された語彙と、音声を認識するための複数種の言語モデルのそれぞれの特徴を示すタグ情報との関連性に基づ、て、前記語彙取得ステツプで取得された語彙に応じた前記各言語モデルの重みを組合せ係数として算出する組合せ係数算出ステップと、前記組合せ係数算出ステップで算出された組合せ係数に応じて前記各言語モデルを組み合わせることにより、前記音声において所定の単語が出現する予測確率を算出する予測確率算出ステップと、

前記予測確率算出ステップで算出された予測確率を用いて前記音声を認識する認識ステップと

を含むことを特徴とする音声認識方法。

[9] 音声を取得して認識するためのプログラムであって、

語彙を取得する語彙取得ステップと、

前記語彙取得ステップで取得された語彙と、音声を認識するための複数種の言語モデルのそれぞれの特徴を示すタグ情報との関連性に基づ、て、前記語彙取得ステツプで取得された語彙に応じた前記各言語モデルの重みを組合せ係数として算出する組合せ係数算出ステップと、

前記組合せ係数算出ステップで算出された組合せ係数に応じて前記各言語モデルを組み合わせることにより、前記音声において所定の単語が出現する予測確率を算出する予測確率算出ステップと、

をコンピュータに実行させることを特徴とするプログラム。

[10] 音声を取得して認識するためのプログラムを記憶して、る記憶媒体であって、前記プログラムは、

語彙を取得する語彙取得ステップと、

前記組合せ係数算出ステップで算出された組合せ係数に応じて前記各言語モデルを組み合わせることにより、前記音声において所定の単語が出現する予測確率を算出する予測確率算出ステップと、前記予測確率算出ステップで算出された予測確率を用いて前記音声を認識する認識ステップとをコンピュータに実行させる

ことを特徴とする記憶媒体。