JP2019079071A

JP2019079071A - 音声認識装置、音声認識方法及び音声認識プログラム

Info

Publication number: JP2019079071A
Application number: JP2019012585A
Authority: JP
Inventors: 健太小合; Kenta Ogo; 明小島; Akira Kojima
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-05-23
Anticipated expiration: 2035-11-13
Also published as: JP6721732B2

Abstract

【課題】発話者が発した音声認識したい音声の背景に比較的大きな音量の音声が存在している場合であっても、発話者の音声に対する音声認識率を向上させることができる音声認識装置を提供する。【解決手段】入力された発話者の音声を含む音響信号を音声認識して認識結果を得て、受信対象地域となる公共放送の放送音響信号も音声認識して識別結果を得て、これらの認識結果中で共通するものを入力された発話者の音声を含む音響信号の音声認識結果から取り除く。【選択図】図１

Description

本発明は、音声認識装置、音声認識方法及び音声認識プログラムに関する。

従来から、インターネットブラウザや、スマートテレビ、タブレット、スマートフォン端末において、利用者から発話された音声を端末（以後、端末をクライアントともいう）で圧縮してクラウド側にそのまま送り、クラウド側のシステムで音声認識処理を行って、その結果をネットワーク経由で端末側が受け取り利用する、クラウド型音声認識システムを用いた音声認識が行われている。また、圧縮してクラウド側にそのまま送らず、端末で音響分析だけ行い、特徴量だけを送って、クラウド側で音声認識を行うＤＳＲ（Distributed Speech Recognition）という方式によるクラウド型音声認識システムを用いた音声認識も行われている。

また、ＨＴＭＬ５ブラウザを用いて、Ｗｅｂアプリで音声を取得して、クラウド側にＷｅｂソケット通信で圧縮音声を送付し、クラウド側で音声認識を行って、その結果を端末で利用できる技術も存在する（例えば、非特許文献１参照）。

これらの仕組みでは、クラウド側の豊富なＣＰＵ資源や統計データで、背景雑音の除去、音圧や音響モデルによる音声区間と非音声区間の分離、音素分析、言語モデルによる統計的分析を行い、高い精度で音声認識を行うことができている。また、近年は、ディープラーニング技術を使ってＣＰＵとＧＰＵ資源を組み合わせて各処理をより高精度にしたり、ディープラーニング技術を使って音響特徴から直接文に変換する一体化モデルにしたりする音声認識方式も提案されている。

さらに、クラウド側で得られたビックデータ、例えば、新しい言葉や、流行語、時事単語など現在ユーザ利用頻度の高い言葉に対し、重みづけを増すなど言語モデルの精度を日々上げていくことによって、正確で実用的な音声認識を行うことができている。

音声認識精度を上げる従来技術としては、例えば下記の（１）〜（３）が挙げられるが、それぞれ下記の通りの課題がある。

（１）エコーキャンセラ
スピーカーで再生した信号がマイクで収音され、収音した音響信号が前記のスピーカーで再生する信号に含まれるようなループが構成される場合には、エコーやハウリングが発生する。このエコーやハウリングを除去・低減する従来技術としては、エコーキャンセラがある。エコーキャンセラは、エコーやハウリングを低減するために用いられるものであり、マイクで得られた音響信号から直前にスピーカーで出した音響信号を取り除くフィルタ処理を行うことにより、装置内でエコーやハウリング影響を除く技術である。しかし、家庭のリビングルームのように、独立した複数の装置が組み合わされ、スピーカーもそれぞれ異なるものが存在する場合は、他スピーカー装置から流れ出る声音をエコーキャンセラにより除去・低減することはできない。また、スマートフォンのアプリやＷｅｂＡＰＩから直接クラウドに音声を送ってしまう場合も、動画の音声などは別アプリである動画再生アプリから直接出力されており、キャンセルすべき音響信号を他アプリやＡＰＩ側からは把握することは困難であり、エコーキャンセラにより除去・低減することはできない。

（２）音圧の違い
背景音声と発話者がマイクに向かって発話した音声を区別する従来技術としては、音圧の違い、すなわち音響信号のパワーを利用する方法がある。しかし、テレビやラジオの再生音量が大きい場合、テレビやラジオのスピーカーがマイクに近い場合、マイクと発話者の位置が離れている場合などでは、背景音声と発話者の音声の音圧に大きな差が無いため、背景音声と発話者の音声とをうまく判別できないことがある。

（３）音響モデルによる分離
人の音声と空調音やエンジン音等の環境ノイズとを分離する従来技術としては、発生源の音の生成モデル違いに着目した音源分離技術がある。また、近年は、ディープラーニングを用いた高度な特徴量判定による音源分離技術も開発されつつあり、音源分離の精度は急速に改善されてきている（例えば、非特許文献２参照）。しかし、ライブ放送のテレビラジオや案内放送等は、それ自体が“人間の音声”であるため、背景にある放送の音声を再生する音響装置の再生品質が高かったり、再生の音量が大きかったりすると、背景音声と発話者の音声とを十分に分離できないことがある。

［online］、［平成２７年１０月１３日検索］、インターネット＜http://www.ntt.co.jp/news2014/1409/140911a.html＞［online］、［平成２７年１０月１５日検索］、インターネット＜http://www.ntt.co.jp/journal/1509/files/jn201509017.pdf＞

しかしながら、発話者が発した音声認識したい音声の背景に比較的大きな音量の音声が存在している場合には、音声認識対象とする音響信号に発話者が発した音声の音響信号のほかに背景の音声の音響信号も含まれてしまうことから、音声認識結果に発話者が意図しない背景の音響信号の音声認識結果が含まれてしまい、発話者が望む音声認識結果とは異なる音声認識結果が得られてしまうという問題がある。

例えば、音声認識対象の音声を発する場所に、テレビやラジオの放送が比較的大きな音量で背景に常時流れている場合、音声認識の識別期間に、これらテレビやラジオのスピーカーから出た声音（アナウンスやセリフ）が意図せず混ざってしまって、正しく認識されないことがあるという問題がある（課題１）。

また、屋外スタジアム、講演ホール、パブリックビューイング会場、電車内など、案内放送や、館内放送が頻繁に大音量で流れている環境で収音した音響信号に対して音声認識を行う場合、音声認識の識別期間に、案内放送や、館内放送の声音（アナウンスやセリフ）が途中で入って、音声検索結果にそれらの音声認識結果が意図せず混ざってしまうという問題もある（課題２）。

また、録画した映画を再生している場合やダウンロードしながらＶＯＤを再生している場合に、動画再生中のアプリ音声と、音声認識アプリが個別にマルチタスクで動作するケースで、音声認識の識別期間に、動画の声音（アナウンスやセリフ）が意図せず音声認識結果に混ざってしまうという問題もある（課題３）。

本発明は、このような事情に鑑みてなされたもので、入力された発話者の音声を含む音響信号を音声認識して認識結果を得て、入力された別の音響信号も音声認識して認識結果を得て、これらの認識結果中で共通するものを入力された発話者の音声を含む音響信号の音声認識結果から取り除くことにより、不要な音声認識結果が含まれる可能性を低減することで、発話者の音声に対する音声認識率を向上させることができる音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。

上記の課題を解決するため、本発明は、入力された発話者の音声を含む音響信号を音声認識して認識結果を得て、受信対象地域となる公共放送の放送音響信号も音声認識して識別結果を得て、これらの認識結果中で共通するものを入力された発話者の音声を含む音響信号の音声認識結果から取り除く。

本発明の一態様は、第１の収音手段で第１の発話者の音声を含んで収音された音響信号である第１音響信号と、インターネット接続プロトコルに従って接続された公共放送局から取得された１以上の放送の音響信号である第１放送音響信号〜第Ｍ放送音響信号（Ｍは１以上の整数）と、のそれぞれの音響信号を音声認識して、それぞれの音響信号に対する音声認識結果である第１音声認識結果と第１放送音声認識結果〜第Ｍ放送音声認識結果を得る音声認識手段と、前記第１放送音声認識結果〜第Ｍ放送音声認識結果の少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る音声認識結果加工手段と、を備えた音声認識装置である。

本発明の一態様は、第１の収音手段で第１の発話者の音声を含んで収音された音響信号である第１音響信号を音声認識して、第１音響信号の音声認識結果である第１音声認識結果と、公共放送信号の受信対象地域に設置された受信機によって受信された１以上の放送の音響信号である第１放送音響信号〜第Ｍ放送音響信号（Ｍは１以上の整数）を音声認識して、第１放送音響信号〜第Ｍ放送音響信号の音声認識結果である第１放送音声認識結果〜第Ｍ放送音声認識結果と、をネットワークを介して得る音声認識手段と、前記第１放送音声認識結果〜第Ｍ放送音声認識結果のうち前記第１の収音手段が放送の受信対象地域にある少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る音声認識結果加工手段と、を備えた音声認識装置である。

本発明の一態様は、ユーザによって利用されるクライアント装置が備える第１の収音手段で第１の発話者の音声を含んで収音された音響信号である第１音響信号を音声認識して第１音響信号の音声認識結果である第１音声認識結果と、公共放送信号の受信対象地域に設置され、ネットワークを介して前記クライアント装置と接続されるクラウド装置によって受信された１以上の放送の音響信号である第１放送音響信号〜第Ｍ放送音響信号（Ｍは１以上の整数）を音声認識して第１放送音響信号〜第Ｍ放送音響信号の音声認識結果である第１放送音声認識結果〜第Ｍ放送音声認識結果と、を得る音声認識手段と、前記第１放送音声認識結果〜第Ｍ放送音声認識結果のうち前記第１の収音手段が放送の受信対象地域にある少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る音声認識結果加工手段と、を備えた音声認識装置である。

本発明の一態様は、上記の音声認識装置であって、前記音声認識結果加工手段は、前記第１放送音声認識結果〜第Ｍ音声認識結果の少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果であるものが複数個ある前記第１放送音声認識結果〜第Ｍ放送音声認識結果についてのみ、当該音声認識結果と前記第１音声認識結果に含まれる部分音声認識結果とにおいて、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果を全て得て、得られた部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る。

本発明の一態様は、音声認識装置が、第１の収音手段で第１の発話者の音声を含んで収音された音響信号である第１音響信号と、インターネット接続プロトコルに従って接続された公共放送局から取得された１以上の放送の音響信号である第１放送音響信号〜第Ｍ放送音響信号（Ｍは１以上の整数）と、のそれぞれの音響信号を音声認識して、それぞれの音響信号に対する音声認識結果である第１音声認識結果と第１放送音声認識結果〜第Ｍ放送音声認識結果を得る音声認識ステップと、音声認識装置が、前記第１放送音声認識結果〜第Ｍ放送音声認識結果の少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る音声認識結果加工ステップと、を有する音声認識方法である。

本発明の一態様は、音声認識装置が、第１の収音手段で第１の発話者の音声を含んで収音された音響信号である第１音響信号を音声認識して、第１音響信号の音声認識結果である第１音声認識結果と、公共放送信号の受信対象地域に設置された受信機によって受信された１以上の放送の音響信号である第１放送音響信号〜第Ｍ放送音響信号（Ｍは１以上の整数）を音声認識して、第１放送音響信号〜第Ｍ放送音響信号の音声認識結果である第１放送音声認識結果〜第Ｍ放送音声認識結果と、をネットワークを介して得る音声認識ステップと、音声認識装置が、前記第１放送音声認識結果〜第Ｍ放送音声認識結果のうち前記第１の収音手段が放送の受信対象地域にある少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る音声認識結果加工ステップと、を有する音声認識方法である。

本発明の一態様は、音声認識装置が、ユーザによって利用されるクライアント装置が備える第１の収音手段で第１の発話者の音声を含んで収音された音響信号である第１音響信号を音声認識して第１音響信号の音声認識結果である第１音声認識結果と、公共放送信号の受信対象地域に設置され、ネットワークを介して前記クライアント装置と接続されるクラウド装置によって受信された１以上の放送の音響信号である第１放送音響信号〜第Ｍ放送音響信号（Ｍは１以上の整数）を音声認識して第１放送音響信号〜第Ｍ放送音響信号の音声認識結果である第１放送音声認識結果〜第Ｍ放送音声認識結果と、を得る音声認識ステップと、音声認識装置が、前記第１放送音声認識結果〜第Ｍ放送音声認識結果のうち前記第１の収音手段が放送の受信対象地域にある少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る音声認識結果加工ステップと、を有する音声認識方法である。

本発明の一態様は、コンピュータを、上記の音声認識装置として動作させるための音声認識プログラムである。

本発明によれば、入力された発話者の音声を含む音響信号の音声認識結果から、入力された別の音響信号の音声認識結果と共通する部分を取り除くことにより、不要な音声認識結果が含まれる可能性を低減することで、発話者の音声に対する音声認識率を向上させることができるという効果が得られる。

本発明の第１、３実施形態の音声認識システムを含むシステム全体の構成を示すブロック図である。本発明の第１実施形態の音声認識システムの１つのクライアント側装置とクラウド側装置による構成を示すブロック図である。本発明の第１実施形態の第１動作例の音声認識結果加工部の処理の流れを示す図である。本発明の第１実施形態の第１動作例の音声認識結果加工部の具体例を説明するための図である。本発明の第１実施形態の第２動作例の音声認識結果加工部の具体例を説明するための図である。本発明の第１実施形態の第３動作例の音声認識結果加工部の具体例を説明するための図である。本発明の第１実施形態の第４動作例の音声認識結果加工部の処理の流れを示す図である。本発明の第１実施形態の第４動作例の音声認識結果加工部の変形例の処理の流れを示す図である。本発明の第１実施形態の第６動作例の音声認識結果加工部の処理の流れを示す図である。本発明の第２実施形態の音声認識システムを含むシステム全体の構成を示すブロック図である。本発明の第２実施形態の音声認識システムの１つのクライアント側装置とクラウド側装置による構成部分を示すブロック図である。本発明の第２実施形態の第１動作例の音声認識結果加工部の処理の流れを示す図である。本発明の第２実施形態の第１動作例の音声認識結果加工部の具体例を説明するための図である。本発明の第２実施形態の第３動作例の音声認識結果加工部の処理の流れを示す図である。本発明の第３実施形態の１つのクライアント側装置とクラウド側装置による構成部分を示すブロック図である。本発明の第３実施形態の音声認識結果加工部の処理の流れを示す図である。本発明の第４実施形態の１つのクライアント側装置とクラウド側装置による構成部分を示すブロック図である。本発明の第４実施形態の変形例の１つのクライアント側装置とクラウド側装置による構成部分を示すブロック図である。本発明の第４実施形態の変形例の音声認識結果加工部の具体例を説明するための図である。本発明の音声認識装置の構成を示すブロック図である。

以下、図面を参照して、本発明の一実施形態による音声認識システムを説明する。

ここで、本発明が想定する利用形態について説明する。本発明は、音声認識用マイクと発話者が近いケースではなく、比較的遠い場合、具体的には、４５センチから数メートル程度の比較的距離があるケースで利用されることを想定している。

想定する周辺状況は、本システム外のテレビ放送、ラジオ放送の声音（アナウンスやセリフ）が数秒から十数秒間隔で流れていたり、案内放送が不定期に流れたりすることなどにより、認識期間中にテレビやラジオや案内放送などの声音がクライアント側装置に入力される音響信号に不定期に入ってしまうケースなどである。

＜第１実施形態＞
まず、本発明の第１実施形態として、クライアント側装置に入力された発話者の音声を含む音響信号の音声認識結果から、別のクライアント側装置に入力された音響信号の音声認識結果と共通する部分を取り除く形態について説明する。図１は第１実施形態における音声認識システムの構成を示すブロック図である。この図において、符号１００は音声認識システムであり、符号１_１〜１_Ｎは複数個（Ｎ個、Ｎは２以上の整数）のクライアント側装置であり、符号２はクラウド側装置である。クライアント側装置１_１〜１_Ｎは、利用者が利用する装置であり、例えば、スマートフォン、スマートテレビ、ＨＤＭＩ（登録商標）ドングルＳＴＢ（「ＳＴＢ」は「セットトップボックス」）、小型ＳＴＢ、先端家電デバイス、ゲーム機などである。クラウド側装置２は、ネットワーク３を介してクライアント側装置１_１〜１_Ｎと接続される。ネットワーク３は、音声認識システム１００のクライアント側装置１_１〜１_Ｎとクラウド側装置２とがインターネットの接続プロトコルに従って情報を送受信できるようにするためのものであり、例えばインターネットである。クライアント側装置１_１〜１_Ｎが最低限含む構成は全て同じであるため、以下では、第１実施形態の音声認識システム１００のうちのクライアント側装置１_１とクラウド側装置２により構成される部分について詳細化したブロック図である図２を用いて説明を行う。

クライアント側装置１_１は、音声入力部１１_１、ユーザ情報取得部１２_１、音声送出部１３_１、検索結果受信部１４_１、画面表示部１５_１を少なくとも含んで構成される。

クラウド側装置２は、音声受信部２１、音声認識部２２、音声認識結果保持部２３、音声認識結果加工部２４、検索処理部２５、検索結果送信部２６を少なくとも含んで構成される。

次に、第１実施形態の音声認識システムの動作を説明する。

［［第１実施形態の第１動作例］］
第１動作例として、第１〜Ｎの利用者のそれぞれがクライアント側装置１_１〜１_Ｎを利用していて、第１の利用者がクライアント側装置１_１に対して検索結果を得たい文章を発話し、当該発話に対応する検索結果をクライアント側装置１_１の画面表示部１５_１に表示する場合の動作の例を説明する。ここでは、より具体的なケースとして、Ｎ＝３であり、テレビやラジオの音が流れていたり駅やデパートなどの案内放送が不定期に流れたりする場所に第１の利用者がいて、第１の利用者と同じテレビやラジオや案内放送が流れている場所に第２の利用者がいて、第１の利用者と同じテレビやラジオや案内放送が流れておらず異なる環境音のある場所に第３の利用者がいる場合を例に説明する。

クライアント側装置１_１の音声入力部１１_１は、クライアント側装置１_１の周囲で発せられた音響信号を取得し、取得した音響信号を音声送信部１３_１に出力する。第１の利用者がクライアント側装置１_１に対して検索結果を得たい文章を発話した場合には、第１の利用者が発話した音声を含む音響信号を取得して出力する。クライアント側装置１_１の周囲でテレビやラジオや案内放送などの環境音が発生している場合には、その環境音を含む音響信号を取得して出力する。したがって、上記の具体ケースであれば、第１の利用者が発話した音声と、テレビやラジオなどの音や案内放送などの環境音と、により構成される音響信号を取得して出力する。

クライアント側装置１_１のユーザ情報取得部１２_１は、クライアント側装置１_１の音声入力部１１_１が音響信号を取得した時刻情報を得て、当該時刻情報とクライアント側装置１_１を特定可能な識別情報（以下、「ID」と呼ぶ）とをユーザ情報として音声送信部１３_１に出力する。時刻情報とは、例えば絶対時刻であり、例えばクライアント側装置１_１がＧＰＳ受信部を内蔵するスマートフォンである場合は、音声入力部１１_１であるスマートフォンのマイクが音響信号を取得した際にＧＰＳ受信部が受信した絶対時刻を時刻情報とすればよい。また、たとえば、携帯キャリア網の基地局や通信サーバからもらった時刻情報でもよいし、スマートフォンのOSが保持するローカル時計の時刻情報でもよい。なお、第１実施形態においては、時刻情報は、複数のクライアント側装置それぞれで取得された音響信号が発せられた時刻が同一であるか否かを特定するために音声認識結果加工部２３が用いるためものであるため、複数のクライアント側装置間で共通の時刻であれば、絶対時刻そのものでなくてもよい。

クライアント側装置１_１の音声送出部１３_１は、音声入力部１１_１が出力した音響信号とユーザ情報取得部１２_１が出力したユーザ情報とを含む伝送信号をクラウド側装置２に対して送出する。より正確には、音声送出部１３_１は、音声入力部１１_１が出力した音響信号とユーザ情報取得部１２_１が出力したユーザ情報とを含む伝送信号を、クラウド側装置２に伝えるべく、ネットワーク３に対して送出する。伝送信号の送出は、例えば、10msなどの所定時間区間ごとに行われる。また、音声送出部１３_１は、音響信号を所定の符号化方法により符号化して符号列を得て、得られた符号列とユーザ情報とを含む伝送信号を送出してもよい。また、音声送出部１３_１は、音響信号に対して音声認識処理の一部の処理である特徴量抽出などを行い、その処理により得られた特徴量とユーザ情報とを含む伝送信号を送出してもよい。ネットワークを介して別装置に伝送信号を送出する技術や音声認識処理をクライアント側装置とクラウド側装置で分散して行う技術には、多くの公知技術や周知技術が存在しているため、詳細な説明を省略する。

クライアント側装置１_２〜１_Ｎの音声入力部１１_２〜１１_Ｎ、ユーザ情報取得部１２_２〜１２_Ｎ及び音声送出部１３_２〜１３_Ｎも、それぞれ、クライアント側装置１_１の音声入力部１１_１、ユーザ情報取得部１２_１及び音声送出部１３_１と同じ動作をする。したがって、上記の具体ケースであれば、クライアント側装置１_２は、第２の利用者が発話した音声と、第１の利用者と同じ環境音と、により構成される音響信号を取得して、当該音響信号とユーザ情報とを含む伝送信号を送出する。また、クライアント側装置１_３は、第３の利用者が発話した音声と、第１の利用者とは異なる環境音と、により構成される音響信号を取得して、当該音響信号とユーザ情報とを含む伝送信号を送出する。

クラウド側装置２の音声受信部２１は、クライアント側装置１_１〜１_Ｎの音声送出部１３_１〜１３_Ｎがそれぞれ送出した伝送信号を受信して、受信したそれぞれの伝送信号から音響信号とユーザ情報との組を取り出して出力する。伝送信号の受信は、例えば、10msなどの所定時間区間ごとに行われる。音声送出部１３_１〜１３_Ｎが音響信号を所定の符号化方法により符号化して符号列を得て、得られた符号列を含む伝送信号を送出した場合には、クラウド側装置２の音声受信部２１は、受信した伝送信号に含まれる符号列を所定の符号化方法に対応する復号方法により復号することで音響信号を得て、得られた音響信号とユーザ情報との組を出力すればよい。また、音声送出部１３_１〜１３_Ｎが音響信号に対して音声認識処理の一部の処理である特徴量抽出などを行い、その処理により得られた特徴量とユーザ情報とを含む伝送信号を送出した場合には、伝送信号から音響信号ではなく特徴量を取り出し、取り出した特徴量とユーザ情報との組を出力すればよい。

クラウド側装置２の音声認識部２２は、音声受信部２１が出力したそれぞれの音響信号に対して音声認識処理を行い、音響信号に含まれる音声に対応する文字列である音声認識結果を得て、音声認識結果と、当該音声認識結果に対応する時刻情報と、当該音声認識結果に対応するIDとによる組を出力する。なお、時刻情報がなかったり、不適切な値だった場合、受け取った時刻情報を用いず、サーバがデータを受け取ったおよその時刻情報で管理する処理をしてもよい。

音声認識処理は、音響信号の所定の纏まりごとに行われる。例えば、音声認識部２２は、音声受信部２１が出力した音響信号を音声認識部２２内の図示しない記憶部に順次記憶し、記憶した音響信号に対して発話区間検出を行うことで発話区間ごとの音響信号の纏まりを得て、発話区間ごとの音響信号の纏まりに対して音声認識処理を行って、発話区間ごとの音響信号の纏まりに対する文字列である音声認識結果を得る。また、例えば、音声認識部２２は、複数の発話区間の音響信号の纏まりに対して音声認識処理を行って、複数の発話区間の音響信号の纏まりに対する文字列である音声認識結果を得てもよい。

したがって、上記の具体ケースであれば、音声認識部２２は、クライアント側装置１_１の音響信号に対する音声認識結果としては、第１の利用者が発話した音声とテレビやラジオや案内放送などの環境音との音声認識結果とから成る文字列を得る。また、音声認識部２２は、クライアント側装置１_２の音響信号に対する音声認識結果としては、第２の利用者が発話した音声と第１の利用者と同じ環境音との音声認識結果から成る文字列を得る。また、音声認識部２２は、クライアント側装置１_３の音響信号に対する音声認識結果としては、第３の利用者が発話した音声と第１の利用者とは異なる環境音との音声認識結果とから成る文字列を得る。

なお、音声認識処理には公知の音声認識技術を用いればよい。すなわち、音響モデル、言語モデル、特徴量の取り方等などの音声認識処理の詳細は、公知のものを用いればよい。また、音声認識処理として、ディープラーニングを用いた一体型の音声認識処理などを用いてもよい。これらの音声認識処理においては、図示しない解析部などで音響信号を規定の区間になるよう解析してから音声認識してもよい。また、音声受信部２１が音響信号に代えて特徴量を出力した場合には、音声認識部２２はその特徴量を用いて音声認識処理を行えばよい。何れにしろ、音声認識処理自体には、多くの公知技術や周知技術が存在しているため、詳細な説明を省略する。

音声認識処理は音響信号の所定の纏まりごとに行われるため、音声認識結果の文字列は所定の纏まりの音響信号に対応するものである。そこで、音声認識部２２は、例えば、音声認識処理の対象にした所定の纏まりの音響信号に対応する複数のユーザ情報に含まれる時刻情報から代表時刻を求め、当該代表時刻を表す時刻情報を当該音声認識結果と組にする。代表時刻は、音声認識結果の文字列に対応する音響信号が発せられた時刻を代表するものであればよい。例えば、音声認識結果の文字列が発せられた始端の時刻を代表時刻とすればよい。また、代表時刻は１つの音声認識結果に複数あってもよい。例えば、音声認識結果に含まれる単語などの部分文字列ごとに、その単語などが発せられた始端の時刻を代表時刻としてもよい。

音声認識結果と組にするIDは、当該音声認識結果に対応するID、すなわち、当該音声認識結果を得る元となった音響信号と組となって音声受信部２１から入力されたユーザ情報に含まれるIDである。

クラウド側装置２の音声認識結果保持部２３は、音声認識部２２が出力した音声認識結果と時刻情報とIDとの組を記憶する。音声認識結果保持部２３の記憶内容は、音声認識結果加工部２４が時刻が共通する単語などの部分文字列があるか否かを判定する処理、及び、時刻が共通する単語などの部分文字列があった際に音声認識結果から取り除いて加工済み音声認識結果を得る処理、に用いられる。したがって、音声認識結果保持部２３には、音声認識部２２が出力した音声認識結果と時刻情報とIDとの組を音声認識結果加工部２４の処理が必要とする時間分だけ記憶しておく。また、音声認識結果保持部２３に保持した記憶内容は、当該記憶内容を用いる音声認識結果加工部２４の処理が終わった時点で削除してよい。

クラウド側装置２の音声認識結果加工部２４は、音声認識結果保持部２３に記憶された少なくとも１つの音声認識結果と時刻情報とIDとの組について、当該音声認識結果の文字列に含まれる部分文字列それぞれについて、他の音声認識結果と時刻情報とIDとの組の中に、部分文字列と時刻との組が一致するものがあった場合に、一致した部分文字列を取り除いたものを加工済み音声認識結果とし、加工済み音声認識結果とIDとを組にして出力する。したがって、少なくともある１つのクライアント側装置についての加工済み音声認識結果が出力されることになる。なお、時刻が一致するか否かの判定については、各クライアント側装置における絶対時刻の誤差や音声認識処理における時刻の誤差などを考慮して同じ時刻であると判定してもよい。すなわち、少なくともある１つの処理対象のクライアント側装置については、略同一の時刻に他のクライアント側装置に当該処理対象クライアント側装置と同じ部分文字列（共通する部分文字列）がある場合には、当該処理対象クライアント側装置の音声認識結果の文字列から共通する部分文字列を取り除いたものを加工済み音声認識結果として得る。

なお、この処理は、他のクライアント側装置の全てを対象として行ってもよいし、他のクライアント側装置の少なくとも１つを対象として行ってもよい。この場合、音声認識結果加工部２４の処理で必要な音声認識結果だけを前段で得るようにしてもよい。すなわち、音声認識結果加工部２４の処理に不要な音声認識結果を得るための音声受信部２１、音声認識部２２及び音声認識結果保持部２３の動作は省略してもよい。

ここで、上記のＮ＝３の例で、少なくともある１つのクライアント側装置がクライアント側装置１_１である例について図３と図４を用いて説明する。図３はこの動作例における音声認識結果加工部２４の処理フローを説明する図であり、図４はこの例における音声認識結果と加工済み音声認識結果の一例を説明する図である。図３の例は、クライアント側装置１_１以外の全てのクライアント側装置それぞれを対象として、クライアント側装置１_２の音声認識結果から順に、クライアント側装置１_１の音声認識結果と部分文字列と時刻との組が一致するものがあるか否かを探索し、部分文字列と時刻との組が一致するものがあった場合には、部分文字列と時刻との組が一致する部分文字列をクライアント側装置１_１の音声認識結果の文字列から当該共通部分文字列を取り除いていく例である。

音声認識結果加工部２４は、まず、クライアント側装置１_１の音声認識結果と時刻情報とIDとの組を音声認識結果保持部２３から読み出す（ステップＳ２４１）。音声認識結果加工部２４は、次に、初期値ｘを２に設定する（ステップＳ２４２）。音声認識結果加工部２４は、次に、クライアント側装置１_ｘの音声認識結果と時刻情報とIDとの組を音声認識結果保持部２３から読み出す（ステップＳ２４３）。音声認識結果加工部２４は、次に、クライアント側装置１_１の音声認識結果と時刻情報とIDとの組とクライアント側装置１_ｘの音声認識結果と時刻情報とIDとの組とにおいて、部分文字列とその時刻が一致するものがあるか否かを探索する（ステップＳ２４４）。この場合、時刻には誤差が考えられるので、およその時間で一致判定する。これは、例えば、数秒以内である。以後、フロー説明における“時刻の一致”という表現に関しては、特に記載ない限り、同様に扱うものとする。音声認識結果加工部２４は、次に、ステップＳ２４４において部分文字列とその時刻が一致するものがあった場合には、部分文字列とその時刻が一致する全ての部分文字列をクライアント側装置１_１の音声認識結果の文字列から取り除く（ステップＳ２４５）。ステップＳ２４４において部分文字列とその時刻が一致するものがなかった場合には、ステップＳ２４６に進む。音声認識結果加工部２４は、次に、ステップＳ２４３〜ステップＳ２４５の処理の対象としていないクライアント側装置が残っているかを判定する（ステップＳ２４６）。音声認識結果加工部２４は、次に、ステップＳ２４６においてステップＳ２４３〜ステップＳ２４５の処理の対象としていないクライアント側装置が残っていると判定された場合には、ｘをｘ＋１に置き換える（ステップＳ２４７）。ステップＳ２４６においてステップＳ２４３〜ステップＳ２４５の処理の対象としていないクライアント側装置が残っていないと判定された場合には、最後に行ったステップＳ２４５で処理済みのクライアント側装置１_１の音声認識結果の文字列をクライアント側装置１_１の加工済み音声認識結果の文字列としてIDと組にして出力する（ステップＳ２４８）。

次に、図４を参照して、この例における音声認識結果と加工済み音声認識結果の一例を説明する。図４の横軸は時刻であり、矢印の上にある３つは音声認識結果加工部２４の入力であるクライアント側装置１_１〜１_３それぞれの音声認識結果であり、矢印の下にある１つはクライアント側装置１_１の加工済み音声認識結果である。クライアント側装置１_１の音声認識結果には、クライアント側装置１_１の利用者である第１の利用者が発した発話である発話１及び発話２の音声認識結果の部分文字列と、クライアント側装置１_１の周囲でテレビが発した音声であるテレビ音声１及びテレビ音声２の音声認識結果の部分文字列が含まれている。また、クライアント側装置１_２の音声認識結果には、クライアント側装置１_２の利用者である第２の利用者が発した発話である発話３及び発話４の音声認識結果の部分文字列と、クライアント側装置１_２の周囲でテレビが発した音声であるテレビ音声１及びテレビ音声２の音声認識結果の部分文字列が含まれている。また、クライアント側装置１_３の音声認識結果には、クライアント側装置１_３の利用者である第３の利用者が発した発話である発話１及び発話２の音声認識結果の部分文字列と、クライアント側装置１_３の周囲でテレビが発した音声であるテレビ音声３及びテレビ音声４の音声認識結果の部分文字列が含まれている。ここで、第１の利用者が発した発話である発話１及び発話２の音声認識結果の部分文字列と、第３の利用者が発した発話である発話１及び発話２の音声認識結果の部分文字列と、はそれぞれ同一であるとする。
なお、図を理解しやすくするために、発話音声例とテレビ音声の文字列の例を図４の音声認識結果の上に併記する。発話例は通常体、テレビ音声例は斜体で表記する。図では、部分文字列は単語毎に書かれているが、実際は１音素等短い部分文字列でもよい。

まず、ｘ＝２のときの図３のステップＳ２４４とステップＳ２４５の処理を説明する。クライアント側装置１_１の音声認識結果に含まれる部分文字列のうちテレビ音声１及びテレビ音声２の音声認識結果の部分文字列については、クライアント側装置１_２の音声認識結果にも同時刻で含まれるため、クライアント側装置１_１の音声認識結果から取り除かれる。クライアント側装置１_１の音声認識結果に含まれる部分文字列のうち発話１及び発話２の音声認識結果の部分文字列については、クライアント側装置１_２の音声認識結果には同時刻で含まれないため、クライアント側装置１_１の音声認識結果から取り除かれない。すなわち、クライアント側装置１_１の音声認識結果に含まれる部分文字列としては発話１及び発話２の音声認識結果の部分文字列が残された状態となり、ｘ＝３のときの処理に進む。

次に、ｘ＝３のときの図３のステップＳ２４４とステップＳ２４５の処理を説明する。クライアント側装置１_１の音声認識結果に含まれる部分文字列のうち発話１及び発話２の音声認識結果の部分文字列については、クライアント側装置１_３の音声認識結果に含まれるものの、クライアント側装置１_３の音声認識結果に同時刻では含まれないため、クライアント側装置１_１の音声認識結果から取り除かれない。すなわち、クライアント側装置１_１の音声認識結果に含まれる部分文字列としては発話１及び発話２の音声認識結果の部分文字列が残された状態となる。

ｘ＝３のときの図３のステップＳ２４４とステップＳ２４５の処理を終えると、ステップＳ２４６においてステップＳ２４３〜ステップＳ２４５の処理を完了していないクライアント側装置が残されていないと判定され、ステップＳ２４８において、発話１及び発話２の音声認識結果の部分文字列が残された状態である音声認識結果が加工済み音声認識結果として出力される。

クラウド側装置２の検索処理部２５は、音声認識結果加工部２４が出力した少なくとも１つの加工済み音声認識結果とIDとの組に含まれる加工済み音声認識結果を検索クエリとして用いて、所定の検索データベースや所定の情報検索サイトでの検索を実行し、検索結果を得て、得た検索結果をIDとの組にして検索結果送出部２６に対して出力する。上記の例では、音声認識結果加工部２４が出力したクライアント装置１_１の加工済み音声認識結果を検索クエリとして用いて、所定の検索データベースや所定の情報検索サイトでの検索を実行し、加工済み音声認識結果に対応する検索結果を得て、得た検索結果をクライアント装置１_１のIDと組にして、検索結果送出部２６に対して出力する。検索処理は、周知技術であるため、詳細な説明を省略する。

クラウド側装置２の検索結果送出部２６は、検索処理部２５が出力した検索結果とIDとの組に含まれるIDに対応するクライアント側装置に対し、検索結果を含む伝送信号である第二伝送信号を送出する。上記の例であれば、検索結果を含む伝送信号である第二伝送信号をクライアント側装置１_１に対して送出する。より正確には、検索結果送出部２６は、検索結果を含む伝送信号である第二伝送信号を、クライアント側装置１_１に伝えるべく、ネットワーク３に対して送出する。

クライアント側装置１_１の検索結果受信部１４_１は、クラウド側装置２が送出した第二伝送信号を受信して、受信した第二伝送信号から検索結果を取り出して、画面表示部１５_１に対して出力する。すなわち、検索結果受信部１４_１が出力する検索結果は、加工済み音声認識結果に対応する検索結果である。

クライアント側装置１_１の画面表示部１５_１は、検索結果受信部１４_１が出力した検索結果をクライアント側装置１_１の画面に表示する。すなわち、画面表示部１５_１が表示する検索結果は、加工済み音声認識結果に対応する検索結果である。

第１実施形態の第１動作例による音声認識システムを用いることによって、課題１の問題を解決することが可能となり、発話者が望む音声認識結果とは異なる音声認識結果が得られる可能性を従来よりも低減し、検索において発話者が望む検索結果とは異なる検索結果が得られる可能性を従来よりも低減することが可能となる。

第１実施形態の第１動作例による音声認識システムを用いることによる効果を、上記の具体ケースで、より詳しく説明する。

クライアント側装置１_１の周囲でテレビやラジオや案内放送などの環境音が発生している場合には、クライアント側装置１_２の周囲でもクライアント側装置１_１の周囲と同じテレビやラジオや案内放送などの環境音が発生している。

この場合、従来技術では、クライアント側装置１_１の音声認識結果に、第１の利用者の音声の音声認識結果に加えて、テレビやラジオや案内放送などの環境音の音声認識結果が含まれてしまう。クライアント側装置１_１が得た音響信号に対して雑音抑圧処理を施した上で音声認識処理をする従来技術も存在するが、雑音抑圧処理で抑圧し切れなかった環境音があった場合には、クライアント側装置１_１の音声認識結果に、抑圧し切れなかった環境音の音声認識結果が含まれてしまう。

クライアント側装置１_１が取得した音響信号からクライアント側装置１_２が取得した音響信号を取り除く従来技術も存在する。しかしながら、同一の環境音であっても、クライアント側装置１_１への伝達特性とクライアント側装置２_１への伝達特性とは異なるため、クライアント側装置１_１が取得した音響信号とクライアント側装置１_２が取得した音響信号とにおいては異なる信号成分として含まれている。このため、クライアント側装置１_１が取得した音響信号からクライアント側装置１_２が取得した音響信号を取り除いたところで、クライアント側装置１_１が取得した音響信号から環境音の全てを取り除くことはできない。したがって、取り除き切れなかった環境音があった場合には、クライアント側装置１_１の音声認識結果に、取り除き切れなかった環境音の音声認識結果が含まれてしまう。また、クライアント側装置１_１が取得した音響信号からクライアント側装置１_２が取得した音響信号を取り除いてしまうと、クライアント側装置１_１に対して第１の利用者が発した音声に対応する音響信号の成分のうち、クライアント側装置１_２の音響信号に対応する成分が取り除かれてしまうため、クライアント側装置１_１に対して第１の利用者が発した音声に対応する音響信号の成分が歪んだ状態となってしまい、クライアント側装置１_１に対して第１の利用者が発した音声に対する音声認識が正しく行われなくなるという問題が生じる可能性もある。

クライアント側装置１_１への伝達特性とクライアント側装置２_１への伝達特性とが異なった場合でも、同一の環境音が比較的大きな音量で存在している場合には、クライアント側装置１_１が取得した音響信号に対する音声認識結果とクライアント側装置１_２が取得した音響信号に対する音声認識結果の双方に、テレビやラジオや案内放送などの声音の音声認識結果である部分文字列が同時刻の部分文字列として含まれている。したがって、第１実施形態の第１動作例による音声認識システムによれば、クライアント側装置１_１が取得した音響信号に対する音声認識結果から、他のクライアント側装置が取得した音響信号に対する音声認識結果に略同一の時刻に含まれる部分文字列を取り除くことで、テレビやラジオや案内放送などの環境音の音声認識結果を取り除くことができる。

一方、クライアント側装置１_１に対して第１の利用者が発した音声は、クライアント側装置１_１が取得した音響信号には含まれるものの、クライアント側装置１_２が取得した音響信号には含まれない。したがって、クライアント側装置１_１が取得した音響信号に対する音声認識結果から、他のクライアント側装置が取得した音響信号に対する音声認識結果に略同一の時刻に含まれる部分文字列を取り除くことでも、第１の利用者が発した音声の音声認識結果は取り除かれない。

以上のように、第１実施形態の第１動作例による音声認識システムによれば、発話者が望む音声認識結果である発話者が発した音声の音声認識結果が欠落する可能性を低く抑えながら、発話者が望む音声認識結果とは異なる音声認識結果であるテレビやラジオや案内放送などの環境音の音声認識結果が含まれる可能性を従来よりも低減することができる。

［［第１実施形態の第２動作例］］
第２動作例として、ある１つの処理対象クライアント側装置について、略同一の時刻に予め定めた複数個の他のクライアント側装置に処理対象クライアント側装置と同じ部分文字列（共通する部分文字列）が同時刻にある場合に、処理対象クライアント側装置の音声認識結果の文字列から共通する部分文字列を取り除いたものを加工済み音声認識結果として得る例を説明する。第２動作例が第１動作例と異なるのは、クラウド側装置２の音声認識結果加工部２４の動作である。以下、第１動作例と異なる部分についてのみ説明する。

クラウド側装置２の音声認識結果加工部２４は、音声認識結果保持部２３に記憶された少なくとも１つの音声認識結果と時刻情報とIDとの組について、当該音声認識結果の文字列に含まれる部分文字列それぞれについて、他の音声認識結果と時刻情報とIDとの組の中に、部分文字列と時刻との組が一致するものが予め定めた複数個（Ｋ個、Ｋは２以上の整数）あった場合に、一致した部分文字列を取り除いたものを加工済み音声認識結果とし、加工済み音声認識結果とIDとを組にして出力する。

次に、図５を参照して、この例における音声認識結果と加工済み音声認識結果の一例を説明する。図５の横軸は時刻であり、矢印の上にある３つは音声認識結果加工部２４の入力であるクライアント側装置１_１〜１_３それぞれの音声認識結果であり、矢印の下にある１つはクライアント側装置１_１の加工済み音声認識結果である。ここでは、より具体的なケースとして、Ｎ＝３(クライアント側装置数)及びＫ＝２(同時刻で部分文字列が一致した装置数の許容数)であり、テレビやラジオの音が流れていたり駅やデパートなどの案内放送が不定期に流れたりする場所に第１の利用者がいて、第１の利用者と同じテレビやラジオや案内放送が流れている場所に第２の利用者と第３の利用者がいる場合を例に説明する。

クライアント側装置１_１の音声認識結果には、クライアント側装置１_１の利用者である第１の利用者が発した発話である発話１及び発話２の音声認識結果の部分文字列と、クライアント側装置１_１の周囲でテレビが発した音声であるテレビ音声１及びテレビ音声２の音声認識結果の部分文字列が含まれている。また、クライアント側装置１_２の音声認識結果には、クライアント側装置１_２の利用者である第２の利用者が発した発話である発話３及び発話４の音声認識結果の部分文字列と、クライアント側装置１_２の周囲でテレビが発した音声であるテレビ音声１及びテレビ音声２の音声認識結果の部分文字列が含まれている。また、クライアント側装置１_３の音声認識結果には、クライアント側装置１_３の利用者である第３の利用者が発した発話である発話５と発話２の音声認識結果の部分文字列と、クライアント側装置１_３の周囲でテレビが発した音声であるテレビ音声１及びテレビ音声２の音声認識結果の部分文字列が含まれている。ここで、第１の利用者が発した発話である発話２の音声認識結果の部分文字列と、第３の利用者が発した発話である発話２の音声認識結果の部分文字列と、は同一であるとする。

クライアント側装置１_１の音声認識結果に含まれる部分文字列のうち発話１の音声認識結果の部分文字列については、クライアント側装置１_２の音声認識結果にもクライアント側装置１_３の音声認識結果にも同時刻で含まれないため、クライアント側装置１_１の音声認識結果から取り除かれない。クライアント側装置１_１の音声認識結果に含まれる部分文字列のうちテレビ音声１の音声認識結果の部分文字列については、クライアント側装置１_２の音声認識結果にもクライアント側装置１_３の音声認識結果にも同時刻で含まれるため、すなわち、他の２個のクライアント側装置の音声認識結果にも同時刻で含まれるため、一致数はＫより大きい３になり、クライアント側装置１_１の音声認識結果から取り除かれる。クライアント側装置１_１の音声認識結果に含まれる部分文字列のうち発話２の音声認識結果の部分文字列については、クライアント側装置１_２の音声認識結果は同時刻で含まれず、クライアント側装置１_３の音声認識結果には同時刻で含まれるため、すなわち、他の１個のクライアント側装置の音声認識結果にも同時刻で含まれるため、一致数は２となりＫを超えないため、クライアント側装置１_１の音声認識結果から取り除かれない。クライアント側装置１_１の音声認識結果に含まれる部分文字列のうちテレビ音声２の音声認識結果の部分文字列については、クライアント側装置１_２の音声認識結果にもクライアント側装置１_３の音声認識結果にも同時刻で含まれるため、すなわち、他の２個のクライアント側装置の音声認識結果にも同時刻で含まれるため、クライアント側装置１_１の音声認識結果から取り除かれる。したがって、発話１及び発話２の音声認識結果の部分文字列が残された状態であるクライアント側装置１_１の音声認識結果が加工済み音声認識結果として出力される。

なお、この処理は、他のクライアント側装置の全てを対象として行ってもよいし、他の一部（ただし、複数個）のクライアント側装置を対象として行ってもよい。この場合、音声認識結果加工部２４の処理で必要な音声認識結果だけを前段で得るようにしてもよい。すなわち、音声認識結果加工部２４の処理に不要な音声認識結果を得るための音声受信部２１、音声認識部２２及び音声認識結果保持部２３の動作は省略してもよい。

第１動作例では、偶然、二人の利用者が同時刻に同一の内容を発話した場合には、利用者が発した音声の音声認識結果は取り除かれてしまう。これに対し、第２動作例では、三人以上（Ｋ＋１人以上）が同時刻に同一の内容を発話しない限りは、利用者が発した音声の音声認識結果を取り除いてしまうことはない。テレビやラジオや案内放送などの環境音が必ず同時刻に同一の内容であることと比べれば、複数の利用者の発話が同時刻に同一の内容である可能性は極めて低く、それが三人以上となる可能性はさらに低い。したがって、第１実施形態の第２動作例による音声認識システムによれば、発話者が望む音声認識結果である発話者が発した音声の音声認識結果が欠落する可能性を第１動作例よりも低く抑えながら、発話者が望む音声認識結果とは異なる音声認識結果であるテレビやラジオや案内放送などの環境音の音声認識結果が含まれる可能性を従来よりも低減することができる。

［［第１実施形態の第３動作例］］
第３動作例として、ある１つの処理対象クライアント側装置について、他のクライアント側装置のうち、処理対象クライアント側装置と同じ部分文字列が同時刻に出現することが複数回あるクライアント側装置についてのみを対象として、他のクライアント側装置に処理対象クライアント側装置と同じ部分文字列（共通する部分文字列）が同時刻にある場合に、処理対象クライアント側装置の音声認識結果の文字列から共通する部分文字列を取り除いたものを加工済み音声認識結果として得る例を説明する。第３動作例が第１動作例と異なるのは、クラウド側装置２の音声認識結果加工部２４の動作である。以下、第１動作例と異なる部分についてのみ説明する。

クラウド側装置２の音声認識結果加工部２４は、音声認識結果保持部２３に記憶された少なくとも１つの音声認識結果と時刻情報とIDとの組について、他の音声認識結果と時刻情報とIDとの組の中に、部分文字列と時刻との組が一致するものが予め定めた複数個（Ｌ個、Ｌは２以上の整数）あった場合に、一致した部分文字列を取り除いたものを加工済み音声認識結果とし、加工済み音声認識結果とIDとを組にして出力する。

次に、図６を参照して、この例における音声認識結果と加工済み音声認識結果の一例を説明する。図６の横軸は時刻であり、矢印の上にある３つは音声認識結果加工部２４の入力であるクライアント側装置１_１〜１_３それぞれの音声認識結果であり、矢印の下にある１つはクライアント側装置１_１の加工済み音声認識結果である。ここでは、より具体的なケースとして、Ｎ＝３及びＬ＝２であり、テレビやラジオの音が流れていたり駅やデパートなどの案内放送が不定期に流れたりする場所に第１の利用者がいて、第１の利用者と同じテレビやラジオや案内放送が流れている場所に第２の利用者がいて、第１の利用者とは異なるテレビやラジオや案内放送が流れている場所に第３の利用者がいる場合を例に説明する。

クライアント側装置１_１の音声認識結果には、クライアント側装置１_１の利用者である第１の利用者が発した発話である発話１及び発話２の音声認識結果の部分文字列と、クライアント側装置１_１の周囲でテレビが発した音声であるテレビ音声１及びテレビ音声２の音声認識結果の部分文字列が含まれている。また、クライアント側装置１_２の音声認識結果には、クライアント側装置１_２の利用者である第２の利用者が発した発話である発話３及び発話４の音声認識結果の部分文字列と、クライアント側装置１_２の周囲でテレビが発した音声であるテレビ音声１及びテレビ音声２の音声認識結果の部分文字列が含まれている。また、クライアント側装置１_３の音声認識結果には、クライアント側装置１_３の利用者である第３の利用者が発した発話である発話５と発話２の音声認識結果の部分文字列と、クライアント側装置１_３の周囲でテレビが発した音声であるテレビ音声３及びテレビ音声４の音声認識結果の部分文字列が含まれている。ここで、第１の利用者が発した発話である発話２の音声認識結果の部分文字列と、第３の利用者が発した発話である発話２の音声認識結果の部分文字列と、は同一であるとする。

クライアント側装置１_２の音声認識結果には、クライアント側装置１_１の音声認識結果と同じ部分文字列が同時刻で含まれている部分文字列として、テレビ音声１の音声認識結果の部分文字列と、テレビ音声２の音声認識結果の部分文字列と、の２つの部分文字列がある。クライアント側装置１_２は、クライアント側装置１_１と同じ部分文字列が同時刻に出現することが複数回あるクライアント装置であるため、部分文字列の取り除き処理の対象とする。クライアント側装置１_３の音声認識結果には、クライアント側装置１_１の音声認識結果と同じ部分文字列が同時刻で含まれている部分文字列として、発話２の音声認識結果の部分文字列がある。クライアント側装置１_３は、クライアント側装置１_１と同じ部分文字列が同時刻に出現することが複数回ないクライアント装置であるため、部分文字列の取り除き処理の対象としない。そして、部分文字列の取り除き処理の対象となったクライアント側装置１_２についてのみ、そのクライアント側装置１_２の音声認識結果とクライアント側装置１_１の音声認識結果とで、同じ文字列が同時刻で含まれているものを全て探索して得る。すなわち、テレビ音声１の音声認識結果の部分文字列とテレビ音声２の音声認識結果の部分文字列とを得る。そして、探索された全ての部分文字列、すなわち、テレビ音声１の音声認識結果の部分文字列とテレビ音声２の音声認識結果の部分文字列、をクライアント側装置１_１の音声認識結果から取り除いたもの、すなわち、発話１及び発話２の音声認識結果の部分文字列が残された状態であるクライアント側装置１_１の音声認識結果、を加工済み音声認識結果として得る。

なお、この処理は、他のクライアント側装置の全てを対象として行ってもよいし、他の一部のクライアント側装置を対象として行ってもよい。この場合、音声認識結果加工部２４の処理で必要な音声認識結果だけを前段で得るようにしてもよい。すなわち、音声認識結果加工部２４の処理に不要な音声認識結果を得るための音声受信部２１、音声認識部２２及び音声認識結果保持部２３の動作は省略してもよい。

第１動作例では、偶然、二人の利用者が同時刻に同一の内容を発話した場合には、利用者が発した音声の音声認識結果は取り除かれてしまう。これに対し、第３動作例では、二人の利用者が同時刻に同一の内容を発話することを複数回行わない限りは、利用者が発した音声の音声認識結果を取り除いてしまうことはない。テレビやラジオや案内放送などの環境音が必ず同時刻に同一の内容であることと比べれば、二人の利用者の発話が同時刻に同一の内容である可能性は極めて低く、それが複数回となる可能性はさらに低い。したがって、第１実施形態の第３動作例による音声認識システムによれば、発話者が望む音声認識結果である発話者が発した音声の音声認識結果が欠落する可能性を第１動作例よりも低く抑えながら、発話者が望む音声認識結果とは異なる音声認識結果であるテレビやラジオや案内放送などの環境音の音声認識結果が含まれる可能性を従来よりも低減することができる。

［［第１実施形態の第４動作例］］
第４動作例として、第１動作例の時刻情報に加えて、位置情報も用いる例を説明する。第４動作例が第１動作例と異なるのは、クライアント側装置１_１〜１_Ｎのユーザ情報取得部１２_１〜１２_Ｎ、クラウド側装置２の音声認識部２２、音声認識結果保持部２３、音声認識結果加工部２４の動作である。以下、第１動作例と異なる部分についてのみ説明する。

クライアント側装置１_１のユーザ情報取得部１２_１は、クライアント側装置１_１は音声入力部１１_１が音響信号を取得した時刻情報と位置情報を得て、当該時刻情報と位置情報をユーザ情報として音声送信部１３_１に出力する。位置情報とは、例えば緯度経度などの絶対位置を表す情報であり、クライアント側装置がＧＰＳ受信部を内蔵するスマートフォンである場合は、音声入力部１１_１であるマイクが音響信号を取得した際にＧＰＳ受信部が測位した緯度経度を位置情報とすればよい。また、Ｗｉｆｉ基地局やビーコンによる補助測位機能をもつスマートフォンである場合は、補助測位部が測位した緯度経度を位置情報とすればよい。なお、位置情報は、複数のクライアント側装置それぞれで取得された音響信号が発せられた位置が近傍であるか否かを特定するために音声認識結果加工部２４が用いるためものであるため、複数のクライアント側装置間の相対位置関係を表す情報でもよい。例えば、スマートテレビやＳＴＢの場合の、地域コード、郵便番号コード、近傍ビーコンから受信したビーコンコード、あるいは、ジオハッシュIDのような、ある緯度経度のメッシュ状の領域で同一の値を示す地域固有IDを位置情報の相対位置関係を表す情報として用いてもよい。クライアント側装置１_２〜１_Ｎのユーザ情報取得部１２_２〜１２_Ｎも、クライアント側装置１_１のユーザ情報取得部１２_１と同様に動作する。

クラウド側装置２の音声認識部２２は、音声受信部２１が出力したそれぞれの音響信号に対して音声認識処理を行い、音響信号に含まれる音声に対応する文字列である音声認識結果を得て、音声認識結果と、当該音声認識結果に対応する時刻情報と、当該音声認識結果に対応する位置情報と、当該音声認識結果に対応するIDとによる組を出力する。音声認識処理やその音声認識結果、音声認識結果に対応する時刻情報、音声認識結果に対応するID、については第１動作例と同様である。音声認識結果と組にする位置情報は、当該音声認識結果に対応する位置情報、すなわち、当該音声認識結果を得る元となった音響信号と組となって音声受信部２１から入力されたユーザ情報に含まれる位置情報である。１つの音声認識結果に対して、当該音声認識結果を得る元となった音響信号と組となって音声受信部２１から入力されたユーザ情報に含まれる位置情報が複数ある場合には、複数の位置情報を代表する１つの位置情報を音声認識結果と組にする。複数の位置情報を代表する１つの位置情報は、音声認識結果に対応する音響信号が発せられた位置を略特定可能とするものであれば何でもよく、例えば、複数の位置情報の何れか１つであってもよいし、複数の位置情報に含まれる緯度の平均値と複数の位置情報に含まれる経度の平均値とを表す位置情報であってもよい。

クラウド側装置２の音声認識結果保持部２３は、音声認識部２２が出力した音声認識結果と時刻情報と位置情報とIDとの組を記憶する。音声認識結果保持部２３の記憶内容は、音声認識結果加工部２４が時刻と位置が共通する単語などの部分文字列があるか否かを判定する処理、及び、時刻と位置が共通する単語などの部分文字列があった際に音声認識結果から取り除いて加工済み音声認識結果を得る処理、に用いられる。したがって、音声認識結果保持部２３に保持した記憶内容は、当該記憶内容を用いる音声認識結果加工部２４の処理が終わり一定時間経過した時点で削除してよい。これは、クライアント側装置の内部処理の所要時間や、クラウド側装置へのデータ送信にかかる時間や誤差、各部分文字列の持つ時間的長さ等を考慮して、例えば、十数秒である。

クラウド側装置２の音声認識結果加工部２４は、音声認識結果保持部２３に記憶された少なくとも１つのID付き音声認識結果と時刻情報と位置情報とIDとの組について、当該音声認識結果の文字列中の部分文字列と時刻と位置との組それぞれについて、他の音声認識結果と時刻情報と位置情報とIDとの組の中に、部分文字列と時刻と位置との組が一致するものがあった場合に、一致した部分文字列を取り除いたものを加工済み音声認識結果とし、加工済み音声認識結果とIDとを組にして出力する。したがって、少なくとも１つのあるクライアント側装置についての加工済み音声認識結果が出力されることになる。なお、位置が一致するか否かの判定については、クライアント側装置が厳密に同一位置にあるかどうかを判定するのではなく、クライアント側装置が同一のテレビやラジオなどの音や案内放送などの環境音を音響信号として取得する可能性がある位置にあるかどうかを判定するので、予め定めた距離の範囲内にあるかなどにより、近傍にあるか否かを位置が一致するか否かの判定として用いる。すなわち、少なくともある１つのクライアント側装置については、略同一の時刻に近傍位置にある他のクライアント側装置に当該クライアント側装置と同じ部分文字列（共通する部分文字列）がある場合には、当該クライアント側装置の音声認識結果の文字列から共通する部分文字列を取り除いたものを加工済み音声認識結果として得る。

なお、上記のクラウド側装置２の音声認識結果決定部２６の処理フローは図７の通りである。図７の処理フローが図３の処理フローと異なる点は、図３のステップＳ２４１に代えてステップＳ２４１Ａを行い、図３のステップＳ２４３に代えてステップＳ２４３Ａを行い、図３のステップＳ２４４に代えてステップＳ２４４Ａを行い、図３のステップＳ２４５に代えてステップＳ２４５Ａを行う点である。

音声認識結果加工部２４は、まず、クライアント側装置１_１の音声認識結果と時刻情報と位置情報とIDとの組を音声認識結果保持部２３から読み出す（ステップＳ２４１Ａ）。音声認識結果加工部２４は、次に、初期値ｘを２に設定する（ステップＳ２４２）。音声認識結果加工部２４は、次に、クライアント側装置１_ｘの音声認識結果と時刻情報と位置情報とIDとの組を音声認識結果保持部２３から読み出す（ステップＳ２４３Ａ）。音声認識結果加工部２４は、次に、クライアント側装置１_１の音声認識結果と時刻情報と位置情報とIDとの組とクライアント側装置１_ｘの音声認識結果と時刻情報と位置情報とIDとの組とにおいて、部分文字列とそのおよその時刻（例えば数秒）と位置が一致するものがあるか否かを探索する（ステップＳ２４４Ａ）。音声認識結果加工部２４は、次に、ステップＳ２４４Ａにおいて部分文字列とその時刻と位置が一致するものがあった場合には、部分文字列とその時刻と位置が一致する全ての部分文字列をクライアント側装置１_１の音声認識結果の文字列から取り除く（ステップＳ２４５Ａ）。ステップＳ２４４Ａにおいて部分文字列とその時刻と位置が一致するものがなかった場合には、ステップＳ２４６に進む。音声認識結果加工部２４は、次に、ステップＳ２４３、ステップＳ２４４Ａ、ステップＳ２４５Ａの処理の対象としていないクライアント側装置が残っているかを判定する（ステップＳ２４６）。音声認識結果加工部２４は、次に、ステップＳ２４６においてステップＳ２４３、ステップＳ２４４Ａ、ステップＳ２４５Ａの処理の対象としていないクライアント側装置が残っていると判定された場合には、ｘをｘ＋１に置き換える（ステップＳ２４７）。ステップＳ２４６においてステップＳ２４３、ステップＳ２４４Ａ、ステップＳ２４５Ａの処理の対象としていないクライアント側装置が残っていないと判定された場合には、最後に行ったステップＳ２４５Ａで処理済みのクライアント側装置１_１の音声認識結果の文字列をクライアント側装置１_１の加工済み音声認識結果の文字列としてIDと組にして出力する（ステップＳ２４８）。

なお、図７のステップＳ２４４Ａに代えて図８の（１）記載のステップＳ２４４Ａ１１とステップＳ２４４Ａ１２を行ってもよい。図７のステップＳ２４４Ａに代えて図８の（１）記載のステップＳ２４４Ａ１１とステップＳ２４４Ａ１２を行えば、ステップＳ２４４Ａ２の部分文字列と時刻の組が一致する場合にのみ、クライアント側装置１_２〜１_Ｎのそれぞれがクライアント側装置１_１の近傍にあるかの探索を行えばよくなるので、一致する部分文字列が少ない場合に、演算処理量を少なくすることができる。

また、図７のステップＳ２４４Ａに代えて図８の（２）記載のステップＳ２４４Ａ２１とステップＳ２４４Ａ２２を行ってもよい。図７のステップＳ２４４Ａに代えて図８の（２）記載のステップＳ２４４Ａ２１とステップＳ２４４Ａ２２を行えば、クライアント側装置１_２〜１_Ｎのそれぞれがクライアント側装置１_１の近傍にある場合にのみステップＳ２４４Ａ２の部分文字列と時刻の組が一致するかの探索を行えばよくなるので、近傍にあるクライアント装置が少ない場合に、演算処理量を少なくすることができる。

第１実施形態の第４動作例による音声認識システムを用いることによって、課題２の問題を解決することが可能となり、発話者が望む音声認識結果とは異なる音声認識結果が得られる可能性を従来よりも低減し、検索において発話者が望む検索結果とは異なる検索結果が得られる可能性を従来よりも低減することが可能となる。

［［第１実施形態の第５動作例］］
第４動作例についても、第１動作例から第２動作例への動作の変更と同様の変更をすることができる。これを第５動作例として説明する。すなわち、第５動作例は、ある１つの処理対象クライアント側装置について、略同一の時刻に近傍位置にある予め定めた複数個の他のクライアント側装置に処理対象クライアント側装置と同じ部分文字列（共通する部分文字列）がある場合に、処理対象クライアント側装置の音声認識結果の文字列から共通する部分文字列を取り除いたものを加工済み音声認識結果として得る例である。第５動作例が第４動作例と異なるのは、クラウド側装置２の音声認識結果加工部２４の動作である。以下、第４動作例と異なる部分についてのみ説明する。

クラウド側装置２の音声認識結果加工部２４は、音声認識結果保持部２３に記憶された少なくとも１つの音声認識結果と時刻情報と位置情報とIDとの組について、当該音声認識結果の文字列に含まれる部分文字列それぞれについて、他の音声認識結果と時刻情報と位置情報とIDとの組の中に、部分文字列と時刻との組が一致するものが予め定めた複数個（Ｋ個、Ｋは２以上の整数）あった場合に、一致した部分文字列を取り除いたものを加工済み音声認識結果とし、加工済み音声認識結果とIDとを組にして出力する。

第４動作例では、偶然、二人の利用者が同時刻に近傍位置で同一の内容を発話した場合には、利用者が発した音声の音声認識結果は取り除かれてしまう。これに対し、第５動作例では、三人以上（Ｋ＋１人以上）の同時刻に近傍位置で同一の内容を発話しない限りは、利用者が発した音声の音声認識結果を取り除いてしまうことはない。テレビやラジオや案内放送などの環境音が必ず同時刻に同一の内容であることと比べれば、複数の利用者の発話が同時刻に近傍位置で同一の内容である可能性は極めて低く、それが三人以上となる可能性はさらに低い。したがって、第１実施形態の第５動作例による音声認識システムによれば、発話者が望む音声認識結果である発話者が発した音声の音声認識結果が欠落する可能性を第２動作例よりも低く抑えながら、発話者が望む音声認識結果とは異なる音声認識結果であるテレビやラジオや案内放送などの環境音の音声認識結果が含まれる可能性を従来よりも低減することができる。

［［第１実施形態の第６動作例］］
位置情報を用いない第１〜第３の動作例と、位置情報を用いる第４〜第５の動作例と、を組み合わせて動作させてもよく、その一例を第６動作例として説明する。第６動作例は、ある１つの処理対象クライアント側装置について、位置情報から処理対象クライアント側装置と近傍位置にあると判断されたクライアント側装置と、処理対象クライアント側装置と近傍位置にあるとは判断されないものの、音声認識結果の文字列中の複数個の部分文字列について、処理対象クライアント側装置の音声認識結果の文字列と同じ部分文字列が同時刻で出現するクライアント側装置と、について、処理対象クライアント側装置の音声認識結果の文字列から共通する部分文字列を取り除いたものを加工済み音声認識結果として得る例である。第６動作例が第４動作例と異なるのは、クラウド側装置２の音声認識結果加工部２４の動作である。以下、第４動作例と異なる音声認識結果加工部２４の動作について、その処理フローである図９を用いて説明する。

音声認識結果加工部２４は、まず、クライアント側装置１_１の音声認識結果と時刻情報と位置情報とIDとの組を音声認識結果保持部２３から読み出す（ステップＳ２４１）。音声認識結果加工部２４は、次に、初期値ｘを２に設定する（ステップＳ２４２）。音声認識結果加工部２４は、次に、クライアント側装置１_ｘの音声認識結果と時刻情報と位置情報とIDとの組を音声認識結果保持部２３から読み出す（ステップＳ２４３）。音声認識結果加工部２４は、次に、クライアント側装置１_１の音声認識結果と時刻情報と位置情報とIDとの組とクライアント側装置１_ｘの音声認識結果と時刻情報と位置情報とIDとの組とにおいて、部分文字列とその時刻が一致するものが複数個あるか否かを探索する（ステップＳ２４４Ｂ１）。音声認識結果加工部２４は、次に、ステップＳ２４４Ｂ１において部分文字列とその時刻が一致するものが複数個あった場合には、部分文字列とその時刻が一致する全ての部分文字列をクライアント側装置１_１の音声認識結果の文字列から取り除く（ステップＳ２４５Ｂ１）。ステップＳ２４４Ｂ１において部分文字列とその時刻が一致するものが複数個なかった場合、すなわち、部分文字列とその時刻が一致するものが１個であった場合と部分文字列とその時刻が一致するものがなかった場合には、ステップＳ２４４Ｂ２に進む。音声認識結果加工部２４は、次に、クライアント側装置１_１の音声認識結果と時刻情報と位置情報とIDとの組とクライアント側装置１_ｘの音声認識結果と時刻情報と位置情報とIDとの組とにおいて、部分文字列とその時刻と位置が一致するものがあるか否かを探索する（ステップＳ２４４Ｂ２）。音声認識結果加工部２４は、次に、ステップＳ２４４Ｂ２において部分文字列とその時刻と位置が一致するものがあった場合には、部分文字列とその時刻と位置が一致する全ての部分文字列をクライアント側装置１_１の音声認識結果の文字列から取り除く（ステップＳ２４５Ｂ２）。ステップＳ２４４Ｂ２において部分文字列とその時刻と位置が一致するものがなかった場合には、ステップＳ２４６に進む。音声認識結果加工部２４は、次に、ステップＳ２４３、ステップ２４４Ｂ１、ステップ２４４Ｂ２、ステップ２４５Ｂ１、ステップ２４５Ｂ２の何れでも処理の対象としていないクライアント側装置が残っているかを判定する（ステップＳ２４６）。音声認識結果加工部２４は、次に、ステップＳ２４６においてステップＳ２４３、ステップ２４４Ｂ１、ステップ２４４Ｂ２、ステップ２４５Ｂ１、ステップ２４５Ｂ２の何れでも処理の対象としていないクライアント側装置が残っていると判定された場合には、ｘをｘ＋１に置き換える（ステップＳ２４７）。ステップＳ２４６においてステップＳ２４３、ステップ２４４Ｂ１、ステップ２４４Ｂ２、ステップ２４５Ｂ１、ステップ２４５Ｂ２の何れでも処理の対象としていないクライアント側装置が残っていないと判定された場合には、最後に行ったステップＳ２４５Ｂ１またはＳ２４５Ｂ２で処理済みのクライアント側装置１_１の音声認識結果の文字列をクライアント側装置１_１の加工済み音声認識結果の文字列としてIDと組にして出力する（ステップＳ２４８）。

第１実施形態の第６動作例による音声認識システムを用いることによって、複数のクライアント側装置が近傍位置にはないものの同じテレビやラジオが流れている場合と、複数のクライアント側装置が近傍位置あって同じテレビやラジオが流れている場合と、の双方の場合の環境音の音声認識結果の文字列を取り除くことが可能となり、発話者が望む音声認識結果とは異なる音声認識結果が得られる可能性を従来よりも低減し、検索において発話者が望む検索結果とは異なる検索結果が得られる可能性を従来よりも低減することが可能となる。

＜第２実施形態＞
次に、本発明の第２実施形態として、クライアント側装置に入力された発話者の音声を含む音響信号の音声認識結果から、公共放送の音響信号の音声認識結果と共通する部分を取り除く形態について説明する。図１０は、第２実施形態における音声認識システムの構成を示すブロック図である。図１０の構成要素のうち図１と同じ構成については同じ符号を付してある。符号１００は音声認識システムであり、符号１_１〜１_Ｎは１個以上（Ｎ個、Ｎは１以上の整数）のクライアント側装置であり、符号２はクラウド側装置である。符号５_１〜５_Ｍは１局以上（Ｍ局、Ｍは１以上の整数）の公共放送局である。クライアント側装置１_１〜１_Ｎは、利用者が利用する装置であり、例えば、第１実施形態の説明において例示したものである。公共放送局５_１〜５_Ｍは音声認識システム１００外に存在するものである。クラウド側装置２は、ネットワーク３を介してクライアント側装置１_１〜１_Ｎと接続される。ネットワーク３は、音声認識システム１００のクライアント側装置１_１〜１_Ｎとクラウド側装置２をインターネットの接続プロトコルに従って情報の送受信をできるようにするためのものであり、例えばインターネットである。クライアント側装置１_１〜１_Ｎとクラウド側装置２はインターネットの接続プロトコルに従って情報の送受信をできるようにされる。
クラウド側装置２は、ネットワーク４を介して公共放送局５_１〜５_Ｍと接続される。ネットワーク４は、音声認識システム１００のクラウド側装置２と公共放送局５_１〜５_Ｍ、をインターネットの接続プロトコルや、映像中継用の専用プロトコルに従って情報の送受信をできるようにするためのものであり、例えば閉域型の専用線インターネットである。

図１０の構成では、公共放送局５_１〜５_Ｍとクラウド側装置２とはネットワーク４を介してインターネットの接続プロトコルに従って接続され、クラウド側装置２が公共放送局５_１〜５_Ｍの公共放送信号を受信できるようにされる。ただし、クラウド側装置２が図示しない受信機を備えていて、ネットワーク４を介さずに公共放送信号を受信できるようにしてもよい。また、例えば、東京、大阪、名古屋、福山等、各地域によって放送される公共放送の番組構成や放送時刻が変わるため、音響信号も地域により異なることになる。クラウド側装置２を全国各地に多数設置するのはコストがかかるため、公共放送信号の受信機を全国各地に設置し、処理した信号や認識結果をネットワーク３、及びネットワーク４経由でクラウド側装置２に送る構成としてもよい。

公共放送局５_１〜５_Ｍは、例えば、クライアント側装置が位置する可能性のある地域の全てのまたは主要な公共放送局であり、例えば、クライアント側装置を利用する利用者の居住地域や移動範囲を含む地域において放送されている衛星、地上、主要ＩＰ型同報放送／ストリーミング／ＣＡＴＶ／有線放送などである。クラウド側装置２は、所望の公共放送局を全て受信できるように、ネットワーク３やネットワーク４や受信設備や受信装置などの必要な設備と接続しておく。

クライアント側装置１_１〜１_Ｎが最低限含む構成は全て同じであるため、以下では、第２実施形態の音声認識システム１００のうちのクライアント側装置１_１とクラウド側装置２により構成される部分について詳細化したブロック図である図１１を用いて説明を行う。図１１の構成要素のうち図２と同じ符号を付してある構成要素は、図２と同じ動作を行うものである。

クラウド側装置２は、音声受信部２１、音声認識部２２、放送受信部４１、放送音声認識部４２、音声認識結果保持部４３、音声認識結果加工部４４、検索処理部２５、検索結果送出部２６を少なくとも含んで構成される。クラウド側装置２の音声受信部２１、音声認識部２２、検索処理部２５及び検索結果送出部２６は、第１実施形態のクラウド側装置２の音声受信部２１、音声認識部２２、検索処理部２５及び検索結果送出部２６と、それぞれ同一の動作をする。

次に、第２実施形態の音声認識システムの動作を説明する。

［［第２実施形態の第１動作例］］
第１動作例として、第１〜Ｎの利用者のそれぞれがクライアント側装置１_１〜１_Ｎを利用していて、第１の利用者がクライアント側装置１_１に対して検索結果を得たい文章を発話し、当該発話に対応する検索結果をクライアント側装置１_１の画面表示部１５_１に表示する場合の動作の例を説明する。ここでは、より具体的なケースとして、２つの公共放送局５_１〜５_２の放送を受信できる地域内にある公共放送局５_１の放送のみが流れている場所に第１の利用者がいる場合を例に説明する。

クライアント側装置１_１の音声入力部１１_１は、クライアント側装置１_１の周囲で発せられた音響信号を取得し、取得した音響信号を音声送信部１３_１に出力する。第１の利用者がクライアント側装置１_１に対して検索結果を得たい文章を発話した場合には、第１の利用者が発話した音声を含む音響信号を取得して出力する。クライアント側装置１_１の周囲でテレビやラジオや案内放送などの環境音が発生している場合には、その環境音を含む音響信号を取得して出力する。したがって、上記の具体ケースであれば、第１の利用者が発話した音声と、公共放送局５_１の放送の音と、により構成される音響信号を取得して出力する。

クライアント側装置１_１のユーザ情報取得部１２_１は、クライアント側装置１_１の音声入力部１１_１が音響信号を取得した時刻情報を得て、当該時刻情報とクライアント側装置１_１を特定可能な識別情報（以下、「ID」と呼ぶ）とをユーザ情報として音声送信部１３_１に出力する。時刻情報とは、例えば絶対時刻であり、例えばクライアント側装置１_１がＧＰＳ受信部を内蔵するスマートフォンである場合は、音声入力部１１_１であるスマートフォンのマイクが音響信号を取得した際にＧＰＳ受信部が受信した絶対時刻を時刻情報とすればよい。また、たとえば、携帯網の基地局や通信サーバからもらった時刻情報でもよいし、OSが保持するローカル時計の時刻情報でもよい。

クライアント側装置１_２〜１_Ｎの音声入力部１１_２〜１１_Ｎ、ユーザ情報取得部１２_２〜１２_Ｎ及び音声送出部１３_２〜１３_Ｎも、それぞれ、クライアント側装置１_１の音声入力部１１_１、ユーザ情報取得部１２_１及び音声送出部１３_１と同じ動作をする。なお、第２〜Ｎの何れかの利用者の発話に対応する検索結果を得る必要が無い場合には、検索結果を得る必要が無い利用者のクライアント側装置は備えないでよいし、検索結果を得る必要が無い利用者のクライアント側装置を備えていたとしても当該クライアント側装置の音声入力部、ユーザ情報取得部及び音声送出部は動作させないでよい。

クラウド側装置２の音声受信部２１は、クライアント側装置１_１〜１_Ｎの音声送出部１３_１〜１３_Ｎがそれぞれ送出した伝送信号を受信して、受信したそれぞれの伝送信号から音響信号とユーザ情報との組を取り出して出力する。伝送信号の受信は、例えば、10msなどの所定時間区間ごとに行われる。音声送出部１３_１〜１３_Ｎが音響信号を所定の符号化方法により符号化して符号列を得て、得られた符号列を送出した場合には、クラウド側装置２の音声受信部２１は、受信した伝送信号に含まれる符号列を所定の符号化方法に対応する復号方法により復号することで音響信号を得て、得られた音響信号とユーザ情報との組を出力すればよい。また、音声送出部１３_１〜１３_Ｎが音響信号に対して音声認識処理の一部の処理である特徴量抽出などを行い、その処理により得られた特徴量とユーザ情報とを含む伝送信号を送出した場合には、伝送信号から音響信号ではなく特徴量を取り出し、取り出した特徴量とユーザ情報との組を出力すればよい。なお、第２〜Ｎの何れかの利用者の発話に対応する検索結果を得る必要が無い場合には、検索結果を得る必要が無い利用者の音響信号は受信しないでよいし、検索結果を得る必要が無い利用者の音響信号は受信したとしても当該音響信号とユーザ情報との組の出力は行わないでよい。また、第２〜Ｎの全ての利用者の発話に対応する検索結果を得る必要が無く、第１の利用者以外の音響信号とユーザ情報との組を出力しない場合には、クライアント側装置１_１のユーザ情報にIDを含めずに出力してもよい。

クラウド側装置２の音声認識部２２は、音声受信部２１が出力したそれぞれの音響信号に対して音声認識処理を行い、音響信号に含まれる音声に対応する文字列である音声認識結果を得て、音声認識結果と、当該音声認識結果に対応する時刻情報と、当該音声認識結果に対応するIDとによる組を出力する。なお、時刻情報がなかったり、不適切な値だった場合、受け取った時刻情報を用いず、サーバがデータを受け取ったおよその時刻情報で管理する処理をしてもよい。なお、第１の利用者以外についての出力をしない場合には、クライアント側装置１_１のIDを含めずに、音声認識結果と、当該音声認識結果に対応する時刻情報とによる組を出力してもよい。

したがって、上記の具体ケースであれば、音声認識部２２は、クライアント側装置１_１の音響信号に対する音声認識結果としては、第１の利用者が発話した音声と公共放送局５_１の放送の音に含まれる音声との音声認識結果とから成る文字列を得て出力する。

なお、第１実施形態と同様に、音声認識処理には公知の音声認識技術を用いればよい。音声受信部２１が音響信号に代えて特徴量を出力した場合には、音声認識部２２はその特徴量を用いて音声認識処理を行えばよい。

クラウド側装置２の放送受信部４１は、公共放送局５_１〜５_Ｍがそれぞれ送出した公共放送信号を受信して、受信したそれぞれの公共放送信号から音響信号と当該音響信号に対応する時刻情報との組を取り出して出力する。その際、公共放送局を特定可能な識別情報（以下、「放送局ID」と呼ぶ）も音響信号と時刻情報と組にして出力してもよい。公共放送信号の受信は、例えば、10msなどの所定時間区間ごとに行われる。公共放送局５_１〜５_Ｎが音響信号を所定の符号化方法により符号化して符号列を得て、得られた符号列を送出した場合には、クラウド側装置２の放送受信部４１は、受信した公共放送信号に含まれる符号列を所定の符号化方法に対応する復号方法により復号することで音響信号を得て、得られた音響信号と当該音響信号に対応する時刻情報との組を出力すればよい。なお、放送受信部４１に図示しない時計を備えて絶対時刻を出力可能なようにしておき、公共放送信号がアナログ放送であって公共放送信号から時刻情報を取り出せない場合などには、放送受信部４１に備えた時計から得た絶対時刻を公共放送信号から音響信号と組にして出力してもよい。なお、放送受信部４１に関しては、例えば、東京、大阪、名古屋、福山等、各地域によって放送される公共放送の音響信号群が変わるため、放送受信部４１をクラウド側装置２とは異なる地方において、ネットワーク経由で放送音声認識部４２と接続する構成でもよい。また、公共放送局から、ネットワーク経由で直接信号を得られる場合は、それで得られる公共放送の音響信号を直接入力に用いても良い。

クラウド側装置２の放送音声認識部４２は、放送受信部４１が出力したそれぞれの音響信号に対して音声認識処理を行い、音響信号に含まれる音声に対応する文字列である音声認識結果を得て、音声認識結果と、当該音声認識結果に対応する時刻情報とによる組を出力する。その際、放送局IDも音響信号と時刻情報と組にして出力してもよい。なお、放送受信部４１と放送音声認識部４２を、クラウド側装置２とは異なる地方において、その出力をネットワーク経由で装置４３と接続する構成でもよい。
なお、音響信号の所定の纏まりごとに音声認識処理を行い、得られた音声認識結果の文字列に時刻情報やIDを付与する方法や、音声認識処理に用いる音声認識技術等については、音声認識部２２と同様であるので、詳細な説明を省略する。

クラウド側装置２の音声認識結果保持部４３は、音声認識部２２が出力した音声認識結果と時刻情報とIDとの組と、放送音声認識部４２が出力した音声認識結果と時刻情報との組と、を記憶する。放送音声認識部４２が音声認識結果と時刻情報と放送局IDとの組を出力した場合には、放送音声認識部４２が出力した音声認識結果と時刻情報との組に代えて、音声認識結果と時刻情報と放送局IDとの組を記憶する。音声認識結果保持部４３の記憶内容は、音声認識結果加工部４４が時刻が共通する単語などの部分文字列があるか否かを判定する処理、及び、時刻が共通する単語などの部分文字列があった際に音声認識結果から取り除いて加工済み音声認識結果を得る処理、に用いられる。したがって、音声認識結果保持部４３には、音声認識部２２が出力した音声認識結果と時刻情報とIDとの組と放送音声認識部４２が出力した音声認識結果と時刻情報と放送局IDとの組とを音声認識結果加工部４４の処理が必要とする時間分だけ記憶しておく。また、音声認識結果保持部４３に保持した記憶内容は、当該記憶内容を用いる音声認識結果加工部４４の処理が終わった時点で削除してよい。

クラウド側装置２の音声認識結果加工部４４は、音声認識結果保持部４３に記憶された少なくとも１つのクライアント側装置の音声認識結果と時刻情報とIDとの組について、音声認識結果保持部４３に記憶された各公共放送の音声認識結果と時刻情報との組の中に、部分文字列と時刻との組が一致するものがあった場合に、一致した部分文字列を取り除いたものを加工済み音声認識結果とし、加工済み音声認識結果とIDとを組にして出力する。したがって、少なくともある１つのクライアント側装置についての加工済み音声認識結果が出力されることになる。なお、時刻が一致するか否かの判定については、クライアント側装置と公共放送局またはクラウド側装置とにおける絶対時刻の誤差や音声認識処理における時刻の誤差などを考慮して同じ時刻であると判定してもよい。すなわち、少なくともある１つのクライアント側装置については、略同一の時刻に何れかの公共放送に当該クライアント側装置と同じ部分文字列（共通する部分文字列）がある場合には、当該クライアント側装置の音声認識結果の文字列から共通する部分文字列を取り除いたものを加工済み音声認識結果として得る。

なお、この処理は、クライアント側装置が位置する可能性のある地域の公共放送局の全てを対象として行ってもよいし、少なくとも１つの公共放送を対象として行ってもよい。この場合、音声認識結果加工部４４の処理で必要な音声認識結果だけを前段で得るようにしてもよい。すなわち、音声認識結果加工部４４の処理に不要な音声認識結果を得るための放送受信部４１、放送音声認識部４２及び音声認識結果保持部４３の動作は省略してもよい。

ここで、上記のＭ＝２の例で、少なくともある１つのクライアント側装置がクライアント側装置１_１である例について図１２と図１３を用いて説明する。図１２はこの動作例における音声認識結果加工部４４の処理フローを説明する図であり、図１３はこの例における音声認識結果と加工済み音声認識結果の一例を説明する図である。図１２の例は、全ての公共放送局の音声認識結果を対象として、公共放送局５_１の音声認識結果から順に、クライアント側装置１_１の音声認識結果と部分文字列と時刻との組が一致するものがあるか否かを探索し、部分文字列と時刻との組が一致するものがあった場合には、部分文字列と時刻との組が一致する部分文字列をクライアント側装置１_１の音声認識結果の文字列から当該共通部分文字列を取り除いていく例である。

音声認識結果加工部４４は、まず、クライアント側装置１_１の音声認識結果と時刻情報とIDとの組を音声認識結果保持部４３から読み出す（ステップＳ４４１）。音声認識結果加工部４４は、次に、初期値ｙを１に設定する（ステップＳ４４２）。音声認識結果加工部４４は、次に、公共放送局５_ｙの音声認識結果と時刻情報の組を音声認識結果保持部４３から読み出す（ステップＳ４４３）。音声認識結果加工部４４は、次に、クライアント側装置１_１の音声認識結果と時刻情報とIDとの組と公共放送局５_ｙの音声認識結果と時刻情報との組とにおいて、部分文字列とその時刻が一致するものがあるか否かを探索する（ステップＳ４４４）。音声認識結果加工部４４は、次に、ステップＳ４４４において部分文字列とその時刻が一致するものがあった場合には、部分文字列とその時刻が一致する全ての部分文字列をクライアント側装置１_１の音声認識結果の文字列から取り除く（ステップＳ４４５）。ステップＳ４４４において部分文字列とその時刻が一致するものがなかった場合には、ステップＳ４４６に進む。音声認識結果加工部４４は、次に、ステップＳ４４３〜ステップＳ４４５の処理の対象としていない公共放送局が残っているかを判定する（ステップＳ４４６）。音声認識結果加工部４４は、次に、ステップＳ４４６においてステップＳ４４３〜ステップＳ４４５の処理の対象としていない公共放送局が残っていると判定された場合には、ｙをｙ＋１に置き換える（ステップＳ４４７）。ステップＳ４４６においてステップＳ４４３〜ステップＳ４４５の処理の対象としていない公共放送局が残っていないと判定された場合には、最後に行ったステップＳ４４５で処理済みのクライアント側装置１_１の音声認識結果の文字列をクライアント側装置１_１の加工済み音声認識結果の文字列としてIDと組にして出力する（ステップＳ４４８）。

次に、図１３を参照して、この例における音声認識結果と加工済み音声認識結果の一例を説明する。図１３の横軸は時刻であり、矢印の上にある３つは音声認識結果加工部４４の入力であるクライアント側装置１_１と公共放送局５_１と公共放送局５_２のそれぞれの音声認識結果であり、矢印の下にある１つはクライアント側装置１_１の加工済み音声認識結果である。クライアント側装置１_１の音声認識結果には、クライアント側装置１_１の利用者である第１の利用者が発した発話である発話１及び発話２の音声認識結果の部分文字列と、クライアント側装置１_１の周囲でテレビが発した音声であるテレビ音声１及びテレビ音声２の音声認識結果の部分文字列が含まれている。また、公共放送局５_１の音声認識結果には、公共放送局５_１が放送した音響信号に含まれる音声であるテレビ音声１及びテレビ音声２の音声認識結果の部分文字列が含まれている。また、公共放送局５_２の音声認識結果には、公共放送局５_２が放送した音響信号に含まれる音声であるテレビ音声３及びテレビ音声４の音声認識結果の部分文字列が含まれている。

まず、ｙ＝１のときの図１２のステップＳ４４４とステップＳ４４５の処理を説明する。クライアント側装置１_１の音声認識結果に含まれる部分文字列のうちテレビ音声１及びテレビ音声２の音声認識結果の部分文字列については、公共放送局５_１の音声認識結果にも同時刻で含まれるため、クライアント側装置１_１の音声認識結果から取り除かれる。クライアント側装置１_１の音声認識結果に含まれる部分文字列のうち発話１及び発話２の音声認識結果の部分文字列については、公共放送局５_１の音声認識結果には同時刻で含まれないため、クライアント側装置１_１の音声認識結果から取り除かれない。すなわち、クライアント側装置１_１の音声認識結果に含まれる部分文字列としては発話１及び発話２の音声認識結果の部分文字列が残された状態となり、ｙ＝２のときの処理に進む。

次に、ｙ＝２のときの図１２のステップＳ４４４とステップＳ４４５の処理を説明する。クライアント側装置１_１の音声認識結果に含まれる部分文字列のうち発話１及び発話２の音声認識結果の部分文字列については、公共放送局５_２の音声認識結果には同時刻で含まれないため、クライアント側装置１_１の音声認識結果から取り除かれない。すなわち、クライアント側装置１_１の音声認識結果に含まれる部分文字列としては発話１及び発話２の音声認識結果の部分文字列が残された状態となる。

ｙ＝２のときの図１２のステップＳ４４４とステップＳ４４５の処理を終えると、ステップＳ４４６においてステップＳ４４３〜ステップＳ４４５の処理を完了していない公共放送局が残されていないと判定され、ステップＳ４４８において、発話１及び発話２の音声認識結果の部分文字列が残された状態である音声認識結果が加工済み音声認識結果として出力される。

第２実施形態の第１動作例による音声認識システムを用いることによって、課題１の問題を解決することが可能となり、発話者が望む音声認識結果とは異なる音声認識結果が得られる可能性を従来よりも低減し、検索において発話者が望む検索結果とは異なる検索結果が得られる可能性を従来よりも低減することが可能となる。

［［第２実施形態の第２動作例］］
第２動作例として、ある１つの処理対象クライアント側装置について、公共放送局のうち、処理対象クライアント側装置と同じ部分文字列が同時刻に出現することが複数回ある公共放送局のみを対象として、公共放送局に処理対象クライアント側装置と同じ部分文字列（共通する部分文字列）が同時刻にある場合に、処理対象クライアント側装置の音声認識結果の文字列から共通する部分文字列を取り除いたものを加工済み音声認識結果として得る例を説明する。第２動作例が第１動作例と異なるのは、クラウド側装置２の音声認識結果加工部４４の動作である。以下、第１動作例と異なる部分についてのみ説明する。

クラウド側装置２の音声認識結果加工部４４は、音声認識結果保持部４３に記憶された少なくとも１つのクライアント側装置の音声認識結果と時刻情報とIDとの組について、音声認識結果保持部４３に記憶された公共放送の音声認識結果と時刻情報との組の中に、部分文字列と時刻との組が一致するものが複数個ある公共放送についてのみを対象として、クライアント側装置の音声認識結果の文字列から、部分文字列と時刻との組が当該公共放送の音声認識結果と一致した部分文字列を取り除いたものを加工済み音声認識結果とし、加工済み音声認識結果とIDとを組にして出力する。なお、第１動作例と同様に、時刻が一致するか否かの判定については、クライアント側装置と公共放送局またはクラウド側装置とにおける絶対時刻の誤差や音声認識処理における時刻の誤差などを考慮して同じ時刻であると判定してもよい。すなわち、第２動作例では、少なくともある１つのクライアント側装置については、略同一の時刻に何れかの公共放送に当該クライアント側装置と同じ部分文字列（共通する部分文字列）が複数個ある場合には、当該クライアント側装置の音声認識結果の文字列から共通する部分文字列が複数個ある公共放送についての共通する部分文字列を取り除いたものを加工済み音声認識結果として得る。

第１動作例では、利用者の周囲に環境音として存在していないテレビやラジオの同時刻に同一の内容を利用者が偶然発話した場合には、利用者が発した音声の音声認識結果は取り除かれてしまう。これに対し、第２動作例では、利用者の周囲に環境音として存在していないテレビやラジオの同時刻に同一の内容を利用者が複数回発話しない限りは、利用者が発した音声の音声認識結果を取り除いてしまうことはない。利用者の周囲に環境音として存在していないテレビやラジオの同時刻に同一の内容を利用者が偶然発話する可能性は極めて低く、それが複数回となる可能性はさらに低い。したがって、第２実施形態の第２動作例による音声認識システムによれば、発話者が望む音声認識結果である発話者が発した音声の音声認識結果が欠落する可能性を第１動作例よりも低く抑えながら、発話者が望む音声認識結果とは異なる音声認識結果であるテレビやラジオや案内放送などの環境音の音声認識結果が含まれる可能性を従来よりも低減することができる。

［［第２実施形態の第３動作例］］
第３動作例として、第１動作例の時刻情報に加えて、位置情報も用いる例を説明する。第３動作例が第１動作例と異なるのは、クライアント側装置１_１〜１_Ｎのユーザ情報取得部１２_１〜１２_Ｎ、クラウド側装置２の音声認識部２２、放送受信部４１、放送音声認識部４２、音声認識結果保持部４３、音声認識結果加工部４４の動作である。以下、第１動作例と異なる部分についてのみ説明する。

第３動作例のクライアント側装置１_１のユーザ情報取得部１２_１は、クライアント側装置１_１は音声入力部１１_１が音響信号を取得した時刻情報と位置情報を得て、当該時刻情報と位置情報をユーザ情報として音声送信部１３_１に出力する。位置情報は、例えば緯度経度などの絶対位置を表す情報であり、クライアント側装置がＧＰＳ受信部を内蔵するスマートフォンである場合は、音声入力部１１_１であるマイクが音響信号を取得した際にＧＰＳ受信部が測位した緯度経度を位置情報とすればよい。Ｗｉｆｉ基地局やビーコンによる補助測位機能をもつスマートフォンである場合は、補助測位部が測位した緯度経度を位置情報とすればよい。なお、位置情報は、複数のクライアント側装置間の相対位置関係を表す情報でもよい。例えば、スマートテレビやＳＴＢの場合の、地域コード、郵便番号コード、近傍ビーコンから受信したビーコンコード、あるいは、ジオハッシュIDのような、ある緯度経度のメッシュ状の領域で同一の値を示す地域固有IDを位置情報の相対位置関係を表す情報として用いてもよい。クライアント側装置１_２〜１_Ｎのユーザ情報取得部１２_２〜１２_Ｎも、クライアント側装置１_１のユーザ情報取得部１２_１と同様に動作する。

第３動作例のクラウド側装置２の音声認識部２２は、音声受信部２１が出力したそれぞれの音響信号に対して音声認識処理を行い、音響信号に含まれる音声に対応する文字列である音声認識結果を得て、音声認識結果と、当該音声認識結果に対応する時刻情報と、当該音声認識結果に対応する位置情報と、当該音声認識結果に対応するIDとによる組を出力する。音声認識処理やその音声認識結果、音声認識結果に対応する時刻情報、音声認識結果に対応するID、については第１動作例と同様である。音声認識結果と組にする位置情報は、当該音声認識結果に対応する位置情報、すなわち、当該音声認識結果を得る元となった音響信号と組となって音声受信部２１から入力されたユーザ情報に含まれる位置情報である。１つの音声認識結果に対して、当該音声認識結果を得る元となった音響信号と組となって音声受信部２１から入力されたユーザ情報に含まれる位置情報が複数ある場合には、複数の位置情報を代表する１つの位置情報を音声認識結果と組にする。複数の位置情報を代表する１つの位置情報は、音声認識結果に対応する音響信号が発せられた位置を略特定可能とするものであれば何でもよく、例えば、複数の位置情報の何れか１つであってもよいし、複数の位置情報に含まれる緯度の平均値と複数の位置情報に含まれる経度の平均値とを表す位置情報であってもよい。

第３動作例のクラウド側装置２の放送受信部４１が行う動作のうち、第１動作例の放送受信部４１が行う動作と異なるのは、放送局IDを必ず出力する点、すなわち、音響信号と時刻情報と放送局IDによる組を出力する点である。これ以外の動作は第１動作例と同じである。

第３動作例のクラウド側装置２の放送音声認識部４２が行う動作のうち、第１動作例の放送音声認識部４２が行う動作と異なるのは、放送局IDを必ず入出力する点、すなわち、音響信号と時刻情報と放送局IDによる組が入力され、音声認識結果の文字列と時刻情報と放送局IDによる組を出力する点である。これ以外の動作は第１動作例と同じである。

第３動作例のクラウド側装置２の音声認識結果保持部４３は、音声認識部２２が出力した音声認識結果と時刻情報と位置情報とIDとの組と、放送音声認識部４２が出力した音声認識結果と時刻情報と放送局IDとの組と、を記憶する。音声認識結果保持部４３の記憶内容は、音声認識結果加工部４４が公共放送の受信対象地域にクライアント側装置があるか否かを判定する処理、時刻が共通する単語などの部分文字列があるか否かを判定する処理、及び、時刻が共通する単語などの部分文字列があった際に音声認識結果から取り除いて加工済み音声認識結果を得る処理、に用いられる。したがって、音声認識結果保持部４３には、音声認識部２２が出力した音声認識結果と時刻情報と位置情報とIDとの組と放送音声認識部４２が出力した音声認識結果と時刻情報と放送局IDとの組とを音声認識結果加工部４４の処理が必要とする時間分だけ記憶しておく。また、音声認識結果保持部４３に保持した記憶内容は、当該記憶内容を用いる音声認識結果加工部４４の処理が終わった時点で削除してよい。

第３動作例のクラウド側装置２の音声認識結果加工部４４は、音声認識結果保持部４３に記憶された少なくとも１つのクライアント側装置の音声認識結果と時刻情報と位置情報とIDとの組について、音声認識結果保持部４３に記憶された各公共放送の音声認識結果と時刻情報と放送局IDの組の中に、当該公共放送の受信対象地域にクライアント側装置があり、部分文字列と時刻との組が一致するものがあった場合に、一致した部分文字列を取り除いたものを加工済み音声認識結果とし、加工済み音声認識結果とIDとを組にして出力する。したがって、少なくともある１つのクライアント側装置についての加工済み音声認識結果が出力されることになる。

クライアント側装置が公共放送の受信対象地域にあるかは、公知の絶対位置を特定可能な情報同士のマッチングにより判定すればよい。例えば、音声認識結果加工部４４内の図示しない記憶部に、公共放送の放送局IDの受信対象の国、県、市町村などの情報と、緯度経度は付された地図と、を予め記憶しておき、クライアント側装置の位置情報により特定される緯度経度からクライアント側装置が位置する国、県、市町村などを求め、求めた国、県、市町村などが公共放送の受信対象の国、県、市町村などに対応するかにより判定すればよい。または、例えば、音声認識結果加工部４４内の図示しない記憶部に、公共放送の放送局IDの受信対象地域の緯度経度の範囲の情報を予め記憶しておき、クライアント側装置の位置情報により特定される音声認識結果に対応する音響信号が発せられた位置の緯度経度が受信対象地域の緯度経度の範囲内かなどによって判定すればよい。

なお、時刻が一致するか否かの判定については、クライアント側装置と公共放送局またはクラウド側装置とにおける絶対時刻の誤差や音声認識処理における時刻の誤差などを考慮して同じ時刻であると判定してもよい。

すなわち、第３動作例のクラウド側装置２の音声認識結果加工部４４は、少なくともある１つのクライアント側装置について、略同一の時刻に、当該クライアント側装置が受信対象地域にある公共放送に、当該クライアント側装置と同じ部分文字列（共通する部分文字列）がある場合には、当該クライアント側装置の音声認識結果の文字列から共通する部分文字列を取り除いたものを加工済み音声認識結果として得る。

なお、共通する部分文字列を取り除く処理は、必ずしもクライアント側装置が受信対象地域である公共放送局の全てを対象として行わなくてもよく、少なくとも１つの公共放送を対象として行ってもよい。この場合、音声認識結果加工部４４の処理で必要な音声認識結果だけを前段で得るようにしてもよい。すなわち、音声認識結果加工部４４の処理に不要な音声認識結果を得るための放送受信部４１、放送音声認識部４２及び音声認識結果保持部４３の動作は省略してもよい。

ここで、少なくともある１つのクライアント側装置がクライアント側装置１_１である例について図１４の処理フローを用いて説明する。図１４の例は、全ての公共放送局の音声認識結果を対象として、公共放送局５_１から順に、当該公共放送局の受信対象地域にクライアント側装置１_１があるかを判定し、当該公共放送局の受信対象地域にクライアント側装置１_１がある場合に、当該公共放送局の音声認識結果に、クライアント側装置１_１の音声認識結果と部分文字列と時刻との組が一致するものがあるか否かを探索し、部分文字列と時刻との組が一致するものがあった場合には、部分文字列と時刻との組が一致する部分文字列をクライアント側装置１_１の音声認識結果の文字列から当該共通部分文字列を取り除いていく例である。

音声認識結果加工部４４は、まず、クライアント側装置１_１の音声認識結果と時刻情報と位置情報とIDとの組を音声認識結果保持部４３から読み出す（ステップＳ４４１Ａ）。音声認識結果加工部４４は、次に、初期値ｙを１に設定する（ステップＳ４４２）。音声認識結果加工部４４は、次に、公共放送局５_ｙの音声認識結果と時刻情報と放送局IDの組を音声認識結果保持部４３から読み出す（ステップＳ４４３Ａ）。音声認識結果加工部４４は、次に、クライアント側装置１_１の音声認識結果と時刻情報と位置情報とIDとの組と公共放送局５_ｙの音声認識結果と時刻情報と放送局IDの組とにおいて、クライアント側装置１１の音声認識結果と時刻情報と位置情報の組に含まれる位置情報が公共放送局５_ｙの受信対象地域に含まれ、かつ、部分文字列とその時刻が一致するものがあるか、を探索する（ステップＳ４４４Ａ）。音声認識結果加工部４４は、次に、ステップＳ４４４Ａの条件を満たす場合には、部分文字列とその時刻が一致する全ての部分文字列をクライアント側装置１_１の音声認識結果の文字列から取り除く（ステップＳ４４５Ａ）。ステップＳ４４４Ａの条件を満たさなかった場合には、ステップＳ４４６に進む。音声認識結果加工部４４は、次に、ステップＳ４４３、ステップＳ４４４Ａ、ステップＳ４４５Ａの処理の対象としていない公共放送局が残っているかを判定する（ステップＳ４４６）。音声認識結果加工部４４は、次に、ステップＳ４４６においてステップＳ４４３、ステップＳ４４４Ａ、ステップＳ４４５Ａの処理の対象としていない公共放送局が残っていると判定された場合には、ｙをｙ＋１に置き換える（ステップＳ４４７）。ステップＳ４４６においてステップＳ４４３、ステップＳ４４４Ａ、ステップＳ４４５Ａの処理の対象としていない公共放送局が残っていないと判定された場合には、最後に行ったステップＳ４４５Ａで処理済みのクライアント側装置１_１の音声認識結果の文字列をクライアント側装置１_１の加工済み音声認識結果の文字列としてIDと組にして出力する（ステップＳ４４８）。

第２実施形態の第３動作例による音声認識システムを用いることによって、発話者が望む音声認識結果である発話者が発した音声の音声認識結果が欠落する可能性を第１動作例よりも低く抑えながら、課題１の問題を解決することが可能となり、発話者が望む音声認識結果とは異なる音声認識結果が得られる可能性を従来よりも低減し、検索において発話者が望む検索結果とは異なる検索結果が得られる可能性を従来よりも低減することが可能となる。

＜第３実施形態＞
次に、本発明の第３実施形態として、クライアント側装置に入力された発話者の音声を含む音響信号の音声認識結果から、クライアント側装置で再生されている音響信号の音声認識結果と共通する部分を取り除く形態について説明する。第３実施形態における音声認識システムの構成は、第１実施形態の音声認識システムの構成と同様であり、音声認識システムの構成を示すブロック図は図１である。符号１００は音声認識システムであり、符号１_１〜１_Ｎは１個以上（Ｎ個、Ｎは１以上の整数）のクライアント側装置であり、符号２はクラウド側装置である。第３実施形態においては、クライアント側装置１_１〜１_Ｎは、クライアント側装置に記憶したコンテンツを再生する機能または／及びネットワーク３経由でクライアント側装置がダウンロードしながらコンテンツを再生する機能を有するものである。なお、「記憶したコンテンツ」に関しては、メディアを装着する形でもよい。コンテンツは、少なくともセリフなど日本語、外国語の音声を含む音響信号を含むものであり、例えば、クライアント側装置に録画した映画や、ダウンロード購入したパッケージ番組、クライアント側装置がダウンロードしながら再生するＶＯＤなどの映像音響信号である。

クライアント側装置１_１〜１_Ｎが最低限含む構成は全て同じであるため、以下では、第３実施形態の音声認識システム１００のうちのクライアント側装置１_１とクラウド側装置２により構成される部分について詳細化したブロック図である図１５を用いて説明を行う。図１５の構成要素のうち図１１と同じ符号を付してある構成要素は、図１１と同じ動作を行うものである。

クライアント側装置１_１は、音声入力部１１_１、ユーザ情報取得部１２_１、音声送出部１３_１、検索結果受信部１４_１、画面表示部１５_１、コンテンツ情報取得部１６_１、コンテンツ情報送出部１７_１を少なくとも含んで構成される。クライアント側装置１_１の音声入力部１１_１、ユーザ情報取得部１２_１、音声送出部１３_１、検索結果受信部１４_１、画面表示部１５_１は、第２実施形態の第１動作例のクライアント側装置１_１の音声入力部１１_１、ユーザ情報取得部１２_１、音声送出部１３_１、検索結果受信部１４_１、画面表示部１５_１と、それぞれ同一の動作をする。

クラウド側装置２は、音声受信部２１、音声認識部２２、コンテンツ音声認識結果蓄積部６０、コンテンツ情報受信部６１、コンテンツ音声認識結果取得部６２、音声認識結果保持部６３、音声認識結果加工部６４、検索処理部２５、検索結果送出部２６を少なくとも含んで構成される。クラウド側装置２の音声受信部２１、音声認識部２２、検索処理部２５及び検索結果送出部２６は、第２実施形態の第１動作例のクラウド側装置２の音声受信部２１、音声認識部２２、検索処理部２５及び検索結果送出部２６と、それぞれ同一の動作をする。

以下では、第２実施形態の第１動作例と異なる部分について説明する。

クライアント側装置１_１のコンテンツ情報取得部１６_１は、クライアント側装置１_１が現在再生しているコンテンツについて、当該コンテンツを特定可能な識別情報（以下、「コンテンツID」という。なお、同一映画であっても、日本語、外国語等の言語の選択によっては、セリフが異なるが、以下説明では、日本語、外国語等の複数言語の音声に対応したコンテンツの場合、それぞれ異なるコンテンツIDを持たせることとして扱い、省略する）と、当該コンテンツ中における現在再生している箇所を表す相対時刻（いわゆる再生位置である）と、を取得して、コンテンツ情報送出部１７_１に出力する。コンテンツ中における現在再生している箇所を表す相対時刻とは、例えば、コンテンツの先頭開始点から標準速度で再生を行った場合に、その箇所を再生するまでに必要となる秒数や、コンテンツに予め付与されているタイムスタンプなどである。

クライアント側装置１_１のコンテンツ情報送出部１７_１は、クライアント側装置１_１を特定可能な識別情報（以下、「ID」と呼ぶ）と、コンテンツ情報取得部１６_１が出力したコンテンツIDと相対時刻と、ユーザ情報取得部１２_１が出力した時刻情報と、を組にして、IDとコンテンツIDと相対時刻と時刻情報との組を含む伝送信号である第三伝送信号をクラウド側装置２に対して送出する。なお、識別情報に関しては、例えば、光メディアの情報データベースや、断片的な音声データからコンテンツIDと相対時刻(再生位置)を取得できる、既存の外部クラウドサービスを用いて特定しても良い。

クラウド側装置２のコンテンツ音声認識結果蓄積部６０には、予め、映画などのコンテンツについての、コンテンツIDと、当該コンテンツの音響信号を音声認識して得られた音声認識結果の文字列と、相対時刻と、が対応付けて記憶されている。音声認識結果の文字列と相対時刻とは、音声認識結果の文字列に含まれる各部分文字列ごとに、当該部分文字列と相対時刻とを組にしておくことで記憶されている。

クラウド側装置２のコンテンツ情報受信部６１は、クライアント側装置１_１のコンテンツ情報送出部１７_１が送出した第三伝送信号を受信して、当該第三伝送信号に含まれるIDとコンテンツIDと相対時刻と時刻情報との組を得て、コンテンツ音声認識結果取得部６２に出力する。

クラウド側装置２のコンテンツ音声認識結果取得部６２は、コンテンツ情報受信部６１が出力したコンテンツIDと相対時刻を用いてコンテンツ音声認識結果蓄積部６０を探索し、当該コンテンツIDに対応するコンテンツの音声認識結果の文字列に含まれる各部分文字列ごとの当該部分文字列と相対時刻とを組を得て、当該相対時刻を対応するコンテンツ情報受信部６１が出力した時刻情報に置き換えて、コンテンツの音声認識結果の文字列に含まれる各部分文字列ごとの当該部分文字列と時刻情報の組を生成し、生成した音声認識結果の文字列に含まれる各部分文字列ごとの当該部分文字列と時刻情報の組と、IDと、を組にして音声認識結果保持部６３に出力する。

クラウド側装置２の音声認識結果保持部６３は、音声認識部２２が出力した音声認識結果と時刻情報とIDとの組と、コンテンツ音声認識結果取得部６２が出力した音声認識結果の文字列に含まれる各部分文字列ごとの当該部分文字列と時刻情報の組とIDとを組にしたものと、を記憶する。音声認識結果保持部６３の記憶内容は、音声認識結果加工部６４が時刻が共通する単語などの部分文字列があるか否かを判定する処理、及び、時刻が共通する単語などの部分文字列があった際に音声認識結果から取り除いて加工済み音声認識結果を得る処理、に用いられる。したがって、音声認識結果保持部６３に保持した記憶内容は、当該記憶内容を用いる音声認識結果加工部６４の処理が終わった時点で削除してよい。

クラウド側装置２の音声認識結果加工部６４は、音声認識結果保持部６３に記憶された少なくとも１つのクライアント側装置の音声認識結果と時刻情報とIDとの組について、音声認識結果保持部４３に記憶された音声認識結果の文字列に含まれる各部分文字列ごとの当該部分文字列と時刻情報の組とIDとを組にしたものの中に、部分文字列と時刻との組が一致するものがあった場合に、一致した部分文字列を取り除いたものを加工済み音声認識結果とし、加工済み音声認識結果とIDとを組にして出力する。なお、時刻が一致するか否かの判定については、音声認識処理における時刻の誤差などを考慮して同じ時刻であると判定してもよい。少なくともある１つのクライアント側装置がクライアント側装置１_１である場合の処理フローは図１６の通りである。

このように、第三実施形態によれば、例えば、映画やＶＯＤを再生している場合、そのコンテンツＩＤと再生位置の秒数もクライアント側装置が取得した音響信号と共にクラウド側装置２に送る。これによりクラウド側装置６は、コンテンツＩＤと再生位置の秒数によりコンテンツの音声認識結果が蓄積されたＤＢを探索してそのコンテンツの声音の音声認識結果（アナウンスやセリフの文字列）を得て、得られたコンテンツの声音の音声認識結果（アナウンスやセリフの文字列）をノイズとして、クライアント側装置が取得した音響信号の音声認識結果の文字列から除外することによって、クライアント側装置の利用者が発した発話に対する音声認識の誤認識の確率を下げることができる。

すなわち、第３の実施形態による音声認識システムを用いることによって、課題３の問題を解決することが可能となる。

＜第４実施形態＞
次に、本発明の第４実施形態として、検索指示の入力を明示した形態について説明する。ここでは、図１１の第２実施形態において検索指示の入力を明示した形態について、図１７を用いて説明する。図１７は、第２実施形態に対応する第４実施形態の音声認識システム１００のうちのクライアント側装置１_１とクラウド側装置２により構成される部分について詳細化したブロック図である。図１７に示す構成が図１１に示す構成と異なる点は、クライアント側装置１_１が検索指示入力部１８_１も少なくとも含んで構成される点である。図１７の検索指示入力部１８_１以外の構成要素は図１１と同じである。以下では、第２実施形態の記載からの差分を説明する。

［［第４実施形態の動作例］］
第４実施形態の動作例として、第１の利用者がクライアント側装置１_１に対して検索結果を得たい文章を発話し、当該発話に対応する検索結果をクライアント側装置１_１の画面表示部１５_１に表示する場合の動作の例を説明する。

クライアント側装置１_１の検索指示入力部１８_１は、第１の利用者が検索結果を得たい文章を発話する際に、検索開始の指示の入力を受け付け、受け付けた検索開始の指示を音声入力部１１_１とユーザ情報取得部１２_１と音声送出部１３_１に出力する。検索開始の指示は、音声認識と検索の双方の開始の指示ともいえる。例えば、クライアント側装置１_１がスマートフォンである場合は、画面上に表示された音声検索開始ボタンと、その音声検索開始ボタンがタッチされたことを検出する検出手段とが、クライアント側装置１_１の検索指示入力部１８_１である。

クライアント側装置１_１の音声入力部１１_１は、検索指示入力部１８_１が出力した検索開始の指示に従って、音響信号を取得して、取得した音響信号を音声送出部１３_１に出力する。例えば、音声入力部１１_１は、検索開始の指示が入力された時点で音響信号の取得を開始し、検索開始の指示が入力された時刻から予め定めた時間が経過した時点で音響信号の取得を終了する。また、例えば、音声入力部１１_１は、図示しない発話有無検出手段を備え、検索開始の指示が入力された時点で音響信号の取得を開始し、発話有無検出手段が発話が無くなったと判断した時点で音響信号の取得を終了する。

クライアント側装置１_１のユーザ情報取得部１２_１は、検索指示入力部１８_１が出力した検索開始の指示に従って、クライアント側装置１_１の音声入力部１１_１が音響信号を取得した時刻情報を得て、当該時刻情報とクライアント側装置１_１を特定可能な識別情報（以下、「ID」と呼ぶ）とをユーザ情報として音声送出部１３_１に出力する。例えば、ユーザ情報取得部１２_１は、音声入力部１１_１が音響信号を取得して出力している間、時刻情報を得て、得た時刻情報とIDとをユーザ情報として音声送出部１３_１に出力する。

クライアント側装置１_１の音声送出部１３_１は、検索指示入力部１８_１が出力した検索開始の指示に従って、音声入力部１１_１が出力した音響信号とユーザ情報取得部１２_１が出力したユーザ情報とを含む伝送信号をクラウド側装置２に対して送出する。

第４実施形態の動作例の音声認識システム１００のこれ以降の動作は、第２実施形態の第１動作例と同様である。

このような構成により、クライアント側装置１_１の検索指示入力部１８_１が検索開始の指示の入力を受け付けたのを契機に、第１の利用者が発話した検索結果を得たい文章に対応する検索結果をクライアント側装置１_１の画面表示部１５_１に表示することが可能となる。

なお、第２実施形態の第１動作例以外の動作例、第１実施形態、第３実施形態についても、検索指示の入力を明示した音声認識システム１００の動作は上記と同様であるので詳細な説明を省略するが、クライアント側装置の検索指示入力部が検索開始の指示の入力を受け付けたのを契機に、利用者が発話した検索結果を得たい文章に対応する検索結果をクライアント側装置の画面表示部に表示することが可能となる。

＜第４実施形態の変形例＞
次に、本発明の第４実施形態の変形例として、検索指示の入力時点よりも前の音響信号を用いる形態について、図１８を用いて説明する。図１８は、図１７に示す第４実施形態の変形例の音声認識システム１００のうちのクライアント側装置１_１とクラウド側装置２により構成される部分について詳細化したブロック図である。図１８に示す構成が図１７に示す構成と異なる点は、クライアント側装置１_１が音声保持部１９_１も少なくとも含んで構成される点である。図１８の音声保持部_１以外の構成要素は図１１と同じである。以下では、第４実施形態との差分を説明する。

［［第４実施形態の変形例の動作例］］
第４実施形態の変形例の動作例として、第４実施形態の動作例と同じ場合の例、すなわち、第１の利用者がクライアント側装置１_１に対して検索結果を得たい文章を発話し、当該発話に対応する検索結果をクライアント側装置１_１の画面表示部１５_１に表示する場合の動作の例を説明する。

クライアント側装置１_１の音声入力部１１_１は、常に音響信号を取得する。音声入力部１１_１は、検索指示入力部１８_１から検索開始の指示が入力された場合には、検索指示入力部１８_１から入力された検索開始の指示に従って、取得した音響信号を音声送出部１３_１に出力する。例えば、音声入力部１１_１は、検索指示入力部１８_１から検索開始の指示が入力された場合には、検索開始の指示が入力された時点から、検索開始の指示が入力された時刻から予め定めた時間が経過した時点までの、音響信号を音声送出部１３_１に出力する。また、音声入力部１１_１は、取得した全ての音響信号を音声保持部１９_１に出力する。

クライアント側装置１_１のユーザ情報取得部１２_１は、音声入力部１１_１が音響信号を取得した時刻の時刻情報を常に取得する。ユーザ情報取得部１２_１は、検索指示入力部１８_１から検索開始の指示が入力された場合には、検索指示入力部１８_１から入力された検索開始の指示に従って、クライアント側装置１_１の音声入力部１１_１が音声送出部１３_１に出力する音響信号の時刻情報と、当該時刻情報とクライアント側装置１_１を特定可能な識別情報（以下、「ID」と呼ぶ）とをユーザ情報として音声送出部１３_１に出力する。また、ユーザ情報取得部１２_１は、取得した全ての時刻情報を音声保持部１９_１に出力する。

クライアント側装置１_１の音声保持部１９_１は、音声入力部１１_１から入力された音響信号とユーザ情報取得部１２_１から入力された時刻情報とを組にして図示しない記憶部に記憶し、最新のものから所定時間経過した音響信号と時刻情報との組を記憶部から削除する。すなわち、音声保持部１９_１は、音声入力部１１_１から入力された音響信号とその音響信号に対応する時刻情報を最新のものから所定時間分だけ保持する。所定時間とは、予め設定した時間であり、例えば、十数秒から数分程度である。また、音声保持部１９_１は、検索指示入力部１８_１から検索開始の指示が入力された場合には、記憶部に記憶されている音響信号と時刻情報との組を音声送出部１３_１に出力する。すなわち、音声保持部１９_１は、検索指示入力部１８_１から検索開始の指示が入力された場合には、最新のものから所定時間分の音響信号とその時刻情報を音声送出部１３_１に出力する。

クライアント側装置１_１の音声送出部１３_１は、検索指示入力部１８_１から入力された検索開始の指示に従って、音声入力部１１_１から入力された音響信号とユーザ情報取得部１２_１から入力されたユーザ情報と音声保持部１９_１から入力された音響信号とその時刻情報とを含む伝送信号をクラウド側装置２に対して送出する。すなわち、音声送出部１３_１は、検索開始の指示が入力された時点から検索開始の指示が入力された時刻から予め定めた時間が経過した時点までの音響信号とその時刻情報と、検索開始の指示が入力された時点よりも過去の所定時間分の音響信号とその時刻情報と、クライアント側装置１_１のIDと、を含む伝送信号をクラウド側装置２に対して送出する。

クラウド側装置２の音声受信部２１、音声認識部２２、放送受信部４１、放送音声認識部４２の動作は、それぞれ、第２実施形態の音声受信部２１、音声認識部２２、放送受信部４１、放送音声認識部４２の動作と同じである。

クラウド側装置２の音声認識結果加工部４４は、まず、音声認識結果保持部４３に記憶された少なくとも１つのクライアント側装置の音声認識結果と時刻情報とIDとの組について、音声認識結果保持部４３に記憶された公共放送の音声認識結果と時刻情報との組の中に、部分文字列と時刻との組が一致するものが複数個ある公共放送についてのみを対象として、クライアント側装置の音声認識結果の文字列から、部分文字列と時刻との組が当該公共放送の音声認識結果と一致した部分文字列を取り除き、取り除き後のクライアント側装置の音声認識結果の文字列を得る。音声認識結果加工部４４は、さらに、取り除き後のクライアント側装置の音声認識結果の文字列から、検索開始の指示が入力された時点よりも過去の部分文字列を取り除いたものを加工済み音声認識結果とし、加工済み音声認識結果とIDとを組にして出力する。

次に、図１９を参照して、この例における音声認識結果と加工済み音声認識結果の一例を説明する。図１９の横軸は時刻であり、検索指示が入力された時点の時刻をＴ_０、検索指示が入力された時刻Ｔ_０から予め定めた時間が経過した時点の時刻をＴ_Ａ、検索指示が入力された時刻Ｔ_０から所定時間過去の時点の時刻をＴ_Ｂ、とする。上側にある太い矢印の上にある３つは音声認識結果加工部４４の入力であるクライアント側装置１_１と公共放送局５_１と公共放送局５_２のそれぞれの音声認識結果であり、下側にある太い矢印の下にある１つはクライアント側装置１_１の加工済み音声認識結果である。

クライアント側装置１_１の音声認識結果には、検索指示が入力された時刻Ｔ_０から予め定めた時間が経過した時刻Ｔ_Ａまでの時間の音声認識結果として、クライアント側装置１_１の利用者である第１の利用者が発した発話である発話２の音声認識結果の部分文字列と、クライアント側装置１_１の周囲でテレビが発した音声であるテレビ音声２の音声認識結果の部分文字列と、が含まれている。また、クライアント側装置１_１の音声認識結果には、検索指示が入力された時刻Ｔ_０の所定時間過去の時刻Ｔ_Ｂから検索指示が入力された時刻Ｔ_０までの時間の音声認識結果として、クライアント側装置１_１の利用者である第１の利用者が発した発話である発話１の音声認識結果の部分文字列と、クライアント側装置１_１の周囲でテレビが発した音声であるテレビ音声１の音声認識結果の部分文字列と、が含まれている。

公共放送局５_１の音声認識結果には、検索指示が入力された時刻Ｔ_０から予め定めた時間が経過した時刻Ｔ_Ａまでの時間の音声認識結果として、公共放送局５_１が放送した音響信号に含まれる音声であるテレビ音声２の音声認識結果の部分文字列が含まれている。また、公共放送局５_１の音声認識結果には、検索指示が入力された時刻Ｔ_０の所定時間過去の時刻Ｔ_Ｂから検索指示が入力された時刻Ｔ_０までの時間の音声認識結果として、公共放送局５_１が放送した音響信号に含まれる音声であるテレビ音声１の音声認識結果の部分文字列が含まれている。

公共放送局５_２の音声認識結果には、検索指示が入力された時刻Ｔ_０から予め定めた時間が経過した時刻Ｔ_Ａまでの時間の音声認識結果として、公共放送局５_２が放送した音響信号に含まれる音声であるテレビ音声４の音声認識結果の部分文字列が含まれている。また、公共放送局５_２の音声認識結果には、検索指示が入力された時刻Ｔ_０の所定時間過去の時刻Ｔ_Ｂから検索指示が入力された時刻Ｔ_０までの時間の音声認識結果として、公共放送局５_２が放送した音響信号に含まれる音声であるテレビ音声３の音声認識結果の部分文字列が含まれている。

クライアント側装置１_１の音声認識結果の文字列と公共放送局５_１の音声認識結果の文字列には、時刻Ｔ_Ｂから時刻Ｔ_Ａの間に、部分文字列とその時刻とが一致するものとして、テレビ音声１の音声認識結果とテレビ音声２の音声認識結果の２個の部分文字列がある。したがって、公共放送局５_１は、複数の部分文字列について、部分文字列とその時刻とが一致しているため、取り除き対象となる。そして、音声認識結果加工部４４は、クライアント側装置１_１の音声認識結果の文字列から、公共放送局５_１の音声認識結果の文字列にも同じ部分文字列が同時刻で存在している全ての部分文字列であるテレビ音声１の音声認識結果の部分文字列とテレビ音声２の音声認識結果の部分文字列を取り除く。クライアント側装置１_１の音声認識結果の文字列と公共放送局５_２の音声認識結果の文字列には、時刻Ｔ_Ｂから時刻Ｔ_Ａの間に、部分文字列とその時刻とが一致する部分文字列はない。したがって、公共放送局５_２は、複数の部分文字列について、部分文字列とその時刻とが一致していないため、取り除き対象とならない。クライアント側装置１_１の音声認識結果の文字列に対してここまでの取り除き処理を行った結果が、図１９の上側の太い矢印と下側の太い矢印との間に例示したものである。

次に、音声認識結果加工部４４は、クライアント側装置１_１の音声認識結果の文字列から、時刻Ｔ_Ｂから時刻Ｔ_０の間の部分文字列である発話１の音声認識結果の部分文字列を取り除く。この結果、発話２の音声認識結果の部分文字列だけが残されたものが、クライアント側装置１_１の加工済み音声認識結果として出力される。

第４実施形態の変形例の動作例の音声認識システム１００のこれ以降の動作は、第４実施形態の動作例と同様である。

なお、第４実施形態の変形例と同様に、第１〜第３実施形態の全ての実施形態その動作例についても、音声保持部１９_１を備える等により、検索開始の指示よりも過去の音響信号を用いて音声認識システム１００を動作させてもよい。

第４実施形態の変形例のように検索開始の指示よりも過去の音響信号を用いて動作させる構成とすることにより、特に、第１実施形態の第３動作例や第２実施形態の第２動作例のように複数の部分文字列が共通する他クライアント側装置や公共放送局を対象として音声認識結果の取り除き処理を行う構成において、検索開始の指示よりも過去の音響信号を用いない構成とする場合よりも、応答速度を速めることができる。

＜音声認識装置の実施形態＞
なお、前述した音声認識システムはクライアント側装置１_１〜１_Ｎとクラウド側装置２とがネットワーク３で接続された構成であるが、クラウド側装置２は複数のサーバ装置等で構成されていてもよい。また、音声認識システムはクラウド型のシステムでなくともよく、スタンドアローン型の音声認識装置であってもよい。すなわち、クラウド側装置２の構成をクライアント側装置１_１〜１_Ｎ内に備えた音声認識装置であってもよい。

また、前述した説明においては、音声認識結果を情報検索に応用した例を説明したが、音声認識結果はどのように利用されてもよい。すなわち、図２及び図１１に示したクライアント側装置１_１とクラウド側装置２により構成される部分のうちの要部のみにより構成される音声認識装置としてもよい。これらの音声認識装置について、図２０を用いて説明する。

［［音声認識装置の第１例］]
図２０の（Ａ）は、音声認識装置の第１例を示すブロック図である。第１例の音声認識装置７００は、音声認識部７１０と音声認識結果７２０を少なくとも含んで構成される。

音声認識装置７００の音声認識部７１０は、図２の音声認識部２２に対応するものである。例えば、音声認識部７１０は、音声認識対象の第１の発話者のスマートフォンのマイク等の第１の収音手段で第１の発話者音声を含んで収音された音響信号である第１音響信号と、第１の発話者とは異なる第２〜Ｎ（Ｎは２以上の整数）の利用者それぞれのスマートフォンのマイク等の第１の収音手段とは異なる第２〜Ｎの収音手段それぞれ収音された音響信号である第２音響信号〜第Ｎ音響信号と、のそれぞれの音響信号を音声認識して、それぞれの音響信号に対する音声認識結果である第１音声認識結果〜第Ｎ音声認識結果を得る。ここで、第１音響信号〜第Ｎ音響信号は、例えば、同一の時刻を含む音響信号である。例えば、第１音響信号は、第１の発話者が音声認識対象として発話した音声を含む音響信号であり、第２音響信号〜第Ｎ音響信号は、始端と終端がそれぞれ第１音響信号と同一または近傍の絶対時刻である音響信号である。

音声認識装置７００の音声認識結果加工部７２０は、図２の音声認識結果保持部２３と音声認識結果加工部２４に対応するものである。例えば、音声認識結果加工部７２０は、第２音声認識結果〜第Ｎ音声認識結果の少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を第１音声認識結果から削除したものを第１の発話者の音声認識結果として得る。なお、音声認識結果加工部７２０は、部分音声認識結果の内容が同一で時刻が略同一であることに加えて、第２〜Ｎの収音手段の位置が第１の収音手段の近傍にある場合に、部分音声認識結果を第１音声認識結果から削除する構成としてもよい。

［［音声認識装置の第２例］]
図２０の（Ｂ）は、音声認識装置の第２例を示すブロック図である。第２例の音声認識装置７０１は、音声認識部７１１と音声認識結果７２１を少なくとも含んで構成される。

音声認識装置７０１の音声認識部７１１は、図１１の音声認識部２２と放送音声認識部４２に対応するものである。例えば、音声認識部７１１は、音声認識対象の第１の発話者のスマートフォンのマイク等の第１の収音手段で第１の発話者音声を含んで収音された音響信号である第１音響信号と、１以上の放送の音響信号である第１放送音響信号〜第Ｍ放送音響信号（Ｍは１以上の整数）と、のそれぞれの音響信号を音声認識して、それぞれの音響信号に対する音声認識結果である第１音声認識結果と第１放送音声認識結果〜第Ｍ放送音声認識結果を得る。ここで、第１音響信号と第１放送音響信号〜第Ｍ放送音響信号は、例えば、同一の時刻を含む音響信号である。例えば、第１音響信号は、第１の発話者が音声認識対象として発話した音声を含む音響信号であり、第１放送音響信号〜第Ｍ放送音響信号は、始端と終端がそれぞれ第１音響信号と同一または近傍の絶対時刻である音響信号である。

音声認識装置７０１の音声認識結果加工部７２１は、図１１の音声認識結果保持部４３と音声認識結果加工部４４に対応するものである。例えば、音声認識結果加工部７２１は、第１放送音声認識結果〜第Ｍ放送音声認識結果の少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を第１音声認識結果から削除したものを第１の発話者の音声認識結果として得る。なお、音声認識結果加工部７２１は、第１の収音手段が受信対象地域にある第２〜Ｍの放送の音声認識結果のみを対象として、部分音声認識結果の内容が同一で時刻が略同一である場合に部分音声認識結果を第１音声認識結果から削除する構成としてもよい。

これらの音声認識によれば、テレビやラジオや案内放送などの環境音が比較的大きな音量で存在している環境下で利用者が発話した場合であっても、高精度に環境音の音声認識結果を取り除くことができ、不要な音声認識結果が含まれる可能性を低減することで、発話者の音声に対する音声認識率を向上させることができる。

なお、上述の説明では、音声認識結果が文字列であるとして説明したが、音声認識結果が音素を表す記号の列などで表されている場合は、文字列に代えて音素記号の列を用いてもよい。すなわち、上述の説明における音声認識結果の文字列や部分文字列は、音声認識結果の音素記号列や部分音素記号列などの、音声認識結果やその一部の内容の一例である。

前述した実施形態における音声認識システムの全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されるものであってもよい。

以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。

本発明は、発話者が発した音声認識したい音声の背景に比較的大きな音量の音声が存在している場合であっても、入力された発話者の音声を含む音響信号を音声認識して認識結果を得て、入力された別の音響信号も音声認識して認識結果を得て、これらの認識結果中で共通するものを入力された音響信号の音声認識結果から取り除くことにより、不要な音声認識結果が含まれる可能性を低減することで、発話者の音声に対する音声認識率を向上させるものである。したがって、発話者が発した音声認識したい音声の背景に比較的大きな音量の音声が存在している場合であっても、発話者の音声のみの音声認識結果を得ることが不可欠な様々な用途にも適用できる。

例えば、一般家庭のリビングルームにおいては、本発明により、音声入力部とＴＶやＡＶアンプ等のスピーカー音源の位置を遠ざける必要がなくなり、音声認識マイク付きリモコン装置が不要になり、装置筐体内の高感度マイクだけで認識する音声認識ができるようになる。したがって、装置コストにシビアな端末システムの費用削減やリモコンの軽量化、リモコンの消費電療の低減により、利便性が向上する。

また、本発明は、放送中に無音や無声音状態が少ないテレビやラジオ、多言語で場内案内放送が繰り返されたりするオリンピック会場、駅、空港、講演ホール、電車、パブリックビューイング会場等での音声認識の活用に有用である。

また、本発明によれば、自動車内においても、独立型のカーＴＶや交通情報やカーラジオの声音（アナウンス、セリフ）を気にせずに、いつでも音声認識コマンドの発話、音声認識による関連情報の検索が行うことができる。これにより、例えば、クラウド連携型の自動車向け音声エージェントサービスの利便性が増す効果が期待される。

また、企業のコールセンターにおける、電話自動応対システムの音声コマンド認識においても、ユーザ宅でよく背景に流れているテレビやラジオ音声等の生活的音声ノイズの影響を抑制できるため、正確性の向上、ひいては、オペレータ介入稼働の削減によるコスト削減も副次的に期待できる。

１_１、１_２、１_３、１_Ｎ・・・クライアント側装置、２・・・クラウド側装置、３・・・ネットワーク、１００・・・音声認識システム、１１_１・・・音声入力部、１２_１・・・ユーザ情報取得部、１３_１・・・音声送出部、１４_１・・・検索結果受信部、１５_１・・・画面表示部、２１・・・音声受信部、２２・・・音声認識部、２３・・・音声認識結果保持部、２４・・・音声認識結果加工部、２５・・・検索処理部、２６・・・検索結果送出部、５_１、５_Ｍ・・・公共放送局、４１・・・放送受信部、４２・・・放送音声認識部、４３・・・音声認識結果保持部、４４・・・音声認識結果加工部、１６_１・・・コンテンツ情報取得部、１７_１・・・コンテンツ情報送出部、６０・・・コンテンツ音声認識結果蓄積部、６１・・・コンテンツ情報受信部、６２・・・コンテンツ音声認識結果取得部、６３・・・音声認識結果保持部、６４・・・音声認識結果加工部、１８_１・・・検索指示入力部、１９_１・・・音声保持部、７００・・・音声認識装置、７１０・・・音声認識部、７２０・・・音声認識結果加工部、７０１・・・音声認識装置、７１１・・・音声認識部、７２１・・・音声認識結果加工部

Claims

第１の収音手段で第１の発話者の音声を含んで収音された音響信号である第１音響信号と、インターネット接続プロトコルに従って接続された公共放送局から取得された１以上の放送の音響信号である第１放送音響信号〜第Ｍ放送音響信号（Ｍは１以上の整数）と、のそれぞれの音響信号を音声認識して、それぞれの音響信号に対する音声認識結果である第１音声認識結果と第１放送音声認識結果〜第Ｍ放送音声認識結果を得る音声認識手段と、
前記第１放送音声認識結果〜第Ｍ放送音声認識結果の少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る音声認識結果加工手段と、
を備えた音声認識装置。
第１の収音手段で第１の発話者の音声を含んで収音された音響信号である第１音響信号を音声認識して、第１音響信号の音声認識結果である第１音声認識結果と、公共放送信号の受信対象地域に設置された受信機によって受信された１以上の放送の音響信号である第１放送音響信号〜第Ｍ放送音響信号（Ｍは１以上の整数）を音声認識して、第１放送音響信号〜第Ｍ放送音響信号の音声認識結果である第１放送音声認識結果〜第Ｍ放送音声認識結果と、をネットワークを介して得る音声認識手段と、
前記第１放送音声認識結果〜第Ｍ放送音声認識結果のうち前記第１の収音手段が放送の受信対象地域にある少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る音声認識結果加工手段と、
を備えた音声認識装置。
ユーザによって利用されるクライアント装置が備える第１の収音手段で第１の発話者の音声を含んで収音された音響信号である第１音響信号を音声認識して第１音響信号の音声認識結果である第１音声認識結果と、公共放送信号の受信対象地域に設置され、ネットワークを介して前記クライアント装置と接続されるクラウド装置によって受信された１以上の放送の音響信号である第１放送音響信号〜第Ｍ放送音響信号（Ｍは１以上の整数）を音声認識して第１放送音響信号〜第Ｍ放送音響信号の音声認識結果である第１放送音声認識結果〜第Ｍ放送音声認識結果と、を得る音声認識手段と、
前記第１放送音声認識結果〜第Ｍ放送音声認識結果のうち前記第１の収音手段が放送の受信対象地域にある少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る音声認識結果加工手段と、
を備えた音声認識装置。
前記音声認識結果加工手段は、
前記第１放送音声認識結果〜第Ｍ音声認識結果の少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果であるものが複数個ある前記第１放送音声認識結果〜第Ｍ放送音声認識結果についてのみ、当該音声認識結果と前記第１音声認識結果に含まれる部分音声認識結果とにおいて、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果を全て得て、得られた部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る
請求項１から３のいずれか一項に記載の音声認識装置。
音声認識装置が、第１の収音手段で第１の発話者の音声を含んで収音された音響信号である第１音響信号と、インターネット接続プロトコルに従って接続された公共放送局から取得された１以上の放送の音響信号である第１放送音響信号〜第Ｍ放送音響信号（Ｍは１以上の整数）と、のそれぞれの音響信号を音声認識して、それぞれの音響信号に対する音声認識結果である第１音声認識結果と第１放送音声認識結果〜第Ｍ放送音声認識結果を得る音声認識ステップと、
音声認識装置が、前記第１放送音声認識結果〜第Ｍ放送音声認識結果の少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る音声認識結果加工ステップと、
を有する音声認識方法。
音声認識装置が、第１の収音手段で第１の発話者の音声を含んで収音された音響信号である第１音響信号を音声認識して、第１音響信号の音声認識結果である第１音声認識結果と、公共放送信号の受信対象地域に設置された受信機によって受信された１以上の放送の音響信号である第１放送音響信号〜第Ｍ放送音響信号（Ｍは１以上の整数）を音声認識して、第１放送音響信号〜第Ｍ放送音響信号の音声認識結果である第１放送音声認識結果〜第Ｍ放送音声認識結果と、をネットワークを介して得る音声認識ステップと、
音声認識装置が、前記第１放送音声認識結果〜第Ｍ放送音声認識結果のうち前記第１の収音手段が放送の受信対象地域にある少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る音声認識結果加工ステップと、
を有する音声認識方法。
音声認識装置が、ユーザによって利用されるクライアント装置が備える第１の収音手段で第１の発話者の音声を含んで収音された音響信号である第１音響信号を音声認識して第１音響信号の音声認識結果である第１音声認識結果と、公共放送信号の受信対象地域に設置され、ネットワークを介して前記クライアント装置と接続されるクラウド装置によって受信された１以上の放送の音響信号である第１放送音響信号〜第Ｍ放送音響信号（Ｍは１以上の整数）を音声認識して第１放送音響信号〜第Ｍ放送音響信号の音声認識結果である第１放送音声認識結果〜第Ｍ放送音声認識結果と、を得る音声認識ステップと、
音声認識装置が、前記第１放送音声認識結果〜第Ｍ放送音声認識結果のうち前記第１の収音手段が放送の受信対象地域にある少なくとも１以上の音声認識結果に含まれる部分音声認識結果と、前記第１音声認識結果に含まれる部分音声認識結果とが、部分音声認識結果の内容が同一であり、かつ、略同時刻の音響信号に対応する部分音声認識結果である場合に、当該部分音声認識結果を前記第１音声認識結果から削除したものを前記第１の発話者の音声認識結果として得る音声認識結果加工ステップと、
を有する音声認識方法。
コンピュータを、請求項１から４のいずれか１項に記載の音声認識装置として動作させるための音声認識プログラム。