JP2016102899A

JP2016102899A - 音声認識装置、音声認識方法および音声認識プログラム

Info

Publication number: JP2016102899A
Application number: JP2014241123A
Authority: JP
Inventors: 滋藤村; Shigeru Fujimura; 大喜渡邊; Hiroyoshi Watanabe; 智広山田; Tomohiro Yamada
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-11-28
Filing date: 2014-11-28
Publication date: 2016-06-02
Anticipated expiration: 2034-11-28
Also published as: JP6322125B2

Abstract

【課題】音声認識の精度を向上し、利用者が意図した音声認識結果を提示する。【解決手段】音声認識装置２であって、ユーザが入力した音声データに付随する背景音声データから、音声の特徴情報を抽出し、複数のコンテンツの音声の特徴情報が記憶された音声特徴記憶部を用いてユーザが利用しているコンテンツを特定する特定部２２と、前記音声データを音声認識して、少なくとも１つのテキスト候補データに変換し、前記特定したコンテンツに関する関連情報を用いて、前記テキスト候補データの中からユーザに提示するテキストデータを決定する音声認識部２３と、を備える。【選択図】図１

Description

本発明は、背景音声を考慮した音声認識を実施するための技術に関する。

ウェブ上のサービスにおいて、音声による高精度な入力手段を備えることは、利用者における利便性の面から重要なことは言うまでもない。近年、利用者がウェブ閲覧の際に用いる端末が多様化するにつれ、その処理能力も区々であり、高度な計算処理を行うに適さない端末もある。このことから、音声認識の処理は、サーバ・クライアントモデルでいうところのサーバで実施されることが多い。サーバ・クライアントモデルで音声認識を実施する際に、雑音に対する耐性を強化し、精度の向上を意識した方法が研究されている。

また、近年、主流となっている音声認識の具体的な処理方法は統計的機械学習に基づいたものであり、確率的に尤もらしいものを認識の結果として出力する。つまり、認識の結果はあくまで推定となる（非特許文献１参照）。

河原達也，「音声認識の方法論に関する考察-世代交代に向けて-」，情報処理学会研究報告(SLP)，音声言語情報処理， 2014-SLP-100(3)， pp.1-5， 2014．

日本語には発音上は同音であるが字が異なるものが多数ある、一例として、「せんだい」については、地名で「仙台（宮城県）」と「川内（鹿児島県）」があり、音だけでは区別がつかず、音声認識における入力情報が音声データのみである場合には推定が困難である。また、英語においても、発音上は同音であるが、スペルが異なるものがある。

本発明は、上記の課題について鑑みてなされたものであり、本発明の目的は、音声認識の精度を向上し、利用者が意図した音声認識結果を提示するための技術を提供することにある。

上記の課題を解決するため、本発明は、音声認識装置であって、ユーザが入力した音声データに付随する背景音声データから、音声の特徴情報を抽出し、複数のコンテンツの音声の特徴情報が記憶された音声特徴記憶部を用いてユーザが利用しているコンテンツを特定する特定部と、前記音声データを音声認識して、少なくとも１つのテキスト候補データに変換し、前記特定したコンテンツに関する関連情報を用いて、前記テキスト候補データの中からユーザに提示するテキストデータを決定する音声認識部と、を備える。

本発明は、音声認識装置が行う音声認識方法であって、ユーザが入力した音声データに付随する背景音声データから、音声の特徴情報を抽出し、複数のコンテンツの音声の特徴情報が記憶された音声特徴記憶部を用いてユーザが利用しているコンテンツを特定する特定ステップと、前記音声データを音声認識して、少なくとも１つのテキスト候補データに変換する変換ステップと、前記特定したコンテンツに関する関連情報を用いて、前記テキスト候補データの中からユーザに提示するテキストデータを決定する決定ステップと、を行う。

本発明は、前記音声認識装置として、コンピュータを機能させることを特徴とする音声認識プログラムである。

本発明によれば、音声認識の精度を向上し、利用者が意図した音声認識結果を提示するための技術を提供することができる。

本発明の実施形態の音声認識システムの構成を示すブロック図である。音声認識システムの処理を示すシーケンス図である。コンテンツ特定処理を示すフローチャートである。関連情報DBの一例を示す図である。音声認識処理の具体例を示す図である。本実施形態の変形例である情報配信システムの構成を示すブロック図である。

以下、本発明の実施の形態を、図面を参照して説明する。

コンテンツ（例えば、テレビ等の放送番組）を視聴しながら、そのコンテンツと関連する情報をウェブで検索するといった行為は、現在では一般的に行われている。ここで、検索の際に音声による入力を用いると、入力される音声データは、利用者（ユーザ）の検索要求となる音声（発話音声）に加え、背後に流れるコンテンツの音声も背景音声として音声データの中に含まれる。本実施形態では、この背景音声を用いて利用者が現在、利用しているコンテンツを特定し、当該コンテンツに関連する情報を、音声で入力された検索要求の内容を高精度に認識するための情報源とする。

図１は、本実施形態の音声認識システムの構成を示す構成図である。図示する音声認識システムでは、クライアント１と、サーバ２（音声認識装置）とを備える。本実施形態では、クライアント１は、音声認識機能を備えることなく、サーバ２側（ウェブページ上）での音声認識機能の利用を想定している。

現状では、一般的にウェブページの閲覧はブラウザを通して行われるため、クライアント１はブラウザとなる。ウェブページは、通常、HTML、CSS、JavaScriptによって構成され、クライアント１においては、JavaScriptなどのプログラムによって以下に説明する各機能部が実現されるものとする。

クライアント１は、利用者が使用する利用者端末であって、スマートフォン、タブレット端末、PCなどを用いることができる。図示するクライアント１は、音声取得部１１と、位置取得部１２と、通信部１３と、結果表示部１４とを備える。

音声取得部１１は、当該クライアント１が備えるマイク（不図示）を用いて、音声データを取得する。なお、従来、ブラウザにおいて、マイクから音声を取得するには、プラグインなどと呼ばれる特殊なソフトウェアをあらかじめブラウザにインストールしておくことが一般的であったが、近年は、急速に機能の整備が進みつつある広義のHTML5に含まれる、ブラウザ上のJavaScriptから利用可能なAPI（Application Programming Interface）を活用することで、特殊なソフトウェアをインストールすることなしにマイクから音声を取得することが可能となった。

ここで、上記JavaScriptから利用可能なAPIを活用することで実現が可能であるということは、ウェブサーバから配信されるウェブページ内の記述のみでマイクから音声を取得可能になるということである。具体的には、getUserMediaおよびWeb Audio APIを活用することで、音声取得部１１は、取得した音声データをストリーミング形式により通信部１３に渡すことが可能となる。

位置取得部１２は、当該クライアント１の位置情報（所在地情報）を取得する。なお、位置取得部１２についても、音声取得部１１と同様に、JavaScriptから利用可能なAPIを活用することで位置情報の取得が可能となる。具体的には、Geolocation APIを活用し、navigator.geolocation.getCurrentPosition関数を利用することで、現在位置の情報が取得可能である。

通信部１３は、音声取得部１１が取得した音声データ、および、位置取得部１２が取得した位置情報を、ネットワークを介してサーバ２に送信する。なお、音声データについては、通信部１３は、ストリーミング形式でサーバ２に送信する。ここで、ストリーミングでの送信については、HTML5の機能の一つであるWebSocketを用いる。位置情報については、通信部１３は、位置取得部１２が取得でき次第、すなわち、位置取得部１２が位置情報を取得したタイミングでサーバ２に送信する。また、通信部１３は、サーバから送信された情報を受信し、結果表示部１４に送出する。

結果表示部１４は、通信部１３を介してサーバ３から受信した認識結果などの各種情報を、ディスプレイ（不図示）に表示する。

なお、本実施形態では、音声取得部１１は、利用者の発話による音声データ（発話音声データ）の入力が行われる以前から、背後に流れているコンテンツ（視聴内容）の音声データ（背景音声データ）を取得し、通信部１３は、当該音声データをサーバ２に送信し続ける。これにより、利用者が視聴しているコンテンツを特定するための音声データの量が増加し、コンテンツ特定の精度を向上することができる。

サーバ２は、クライアント１から送信された音声データを音声認識し、認識結果をクライアント１に提供する。なお、サーバ２においては、実装言語の制約などはない。図示するサーバ２は、通信部２１と、コンテンツ特定部２２と、音声認識部２３と、音声特徴DB（データベース）２４と、関連情報DB２５とを備える。

通信部２１は、クライアント１から送信される音声データおよび位置情報を受信し、受信した音声データおよび位置情報をコンテンツ特定部２２に送出するとともに、クライアント１から送信される音声データを音声認識部２３に送出する。また、通信部２１は、音声認識部２３の認識結果をクライアント１に送信する。

コンテンツ特定部２２は、ユーザが入力した音声データに付随する背景音声データから、音声の特徴情報を抽出し、音声特徴DB２４を用いて利用者が利用しているコンテンツを特定する。また、本実施形態では、コンテンツ特定部２２は、ユーザの位置情報を取得し、音声特徴DB２４に記憶されたコンテンツの中から当該位置情報に応じた放送番組を絞込み、絞込んだ各コンテンツの特徴情報と、背景音声データの特徴情報とをそれぞれ照合することで、ユーザが視聴しているコンテンツを特定する。すなわち、位置情報を用いて確度を高めたうえで、音声データを基に音声特徴DB２４を用いてユーザが利用しているコンテンツを特定する。コンテンツ特定部２２は、特定したコンテンツを識別するための情報（例えば、コンテンツIDなど）を、音声認識部２３に送出する。

音声認識部２３は、音声データを音声認識して、少なくとも１つの認識結果候補であるテキスト候補データに変換し、特定したコンテンツに関する関連情報を用いて、テキスト候補データの中からユーザに提示するテキストデータを決定する。具体的には、音声認識部２３は、通信部２１より受け取ったユーザが発話した音声データの音声認識を行い、コンテンツ特定部２２が特定したコンテンツの関連情報を関連情報DB２５から取得し、コンテンツに関連するテキスト候補データが選択される確率を高くする。そして、音声認識部２３は、選択したテキスト候補データを、通信部２１を介してクライアント１に送信する。

音声特徴DB２４には、複数のコンテンツの音声の特徴情報が記憶される。関連情報DB２５には、複数のコンテンツに関する関連情報が記憶される。

なお、上記説明した、クライアント１およびサーバ２は、例えば、ＣＰＵと、メモリと、ハードディスク等の外部記憶装置と、入力装置と、出力装置とを備えた汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、ＣＰＵがメモリ上にロードされた所定のプログラムを実行することにより、各部の各機能が実現される。例えば、クライアント１およびサーバ２の各機能は、クライアント１用のプログラムの場合はユーザ端末１のＣＰＵが、そして、サーバ２用のプログラムの場合はサーバ２のＣＰＵがそれぞれ実行することにより実現される。

また、クライアント１のプログラムおよびサーバ２用のプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ−ＲＯＭなどのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。

以下に、本実施形態の処理について説明する。

図２は、音声認識システムの処理を示すシーケンス図である。クライアント１の音声取得部１１は、マイクより音声データを取得し（Ｓ１）、通信部１３を用いてサーバ２に送信する（Ｓ２）。なお、音声データには、ユーザが発話することで入力した発話音声データと、ユーザが利用（視聴）しているコンテンツの背景音声データとが含まれる。なお、音声データは、ストリーミング形式でサーバ２に送信される。

また、クライアント１の位置取得部１２は、位置情報を取得し（Ｓ３）、通信部１３を用いてサーバ２に送信する（Ｓ４）。なお、Ｓ１およびＳ２の処理と、Ｓ３およびＳ４の処理とは、非同期に行われるものであって、Ｓ３およびＳ４の処理は、Ｓ１およびＳ２の処理の前に行われる、または、Ｓ１およびＳ２の処理の間に行われるなど、処理の順序は図２に示す例に限定されるものではない。

サーバ２のコンテンツ特定部２２は、クライアント１から送信された音声データの背景音声データから音声の特徴情報を抽出し、音声特徴DB２４を用いて利用者が利用しているコンテンツを特定する（Ｓ５）。そして、サーバ２の音声認識部２３は、クライアント１から送信された音声データの発話データを音声認識して、少なくとも１つのテキスト化された認識結果候補に変換し、関連情報DB２５を参照して、特定したコンテンツに関する関連情報を用いて、テキスト候補データの中からユーザに提示するテキストデータを決定する（Ｓ６）。なお、Ｓ５およびＳ６の処理については後述する。

そして、音声認識部２３は、決定したテキストデータを通信部２１を用いてクライアント１に送信する（Ｓ７）。クライアント１の結果表示部１４は、通信部１３を用いてサーバ２から受信した認識結果を、ディスプレイに表示する（Ｓ８）。

以下に、Ｓ５およびＳ６の処理について、詳細に説明する。

Ｓ５のコンテンツ特定処理では、通信部２１を介して得られた音声データと位置情報とを用いて、クライアント１の利用者が利用しているコンテンツを特定する。ここで、音声データを利用してコンテンツを特定する方法については、自動コンテンツ認識（ACR）技術の中でも音声フィンガープリントと呼ばれる方法が知られている。

音声フィンガープリントについては、特開２００４−３２６０５０号公報（以下、「文献１」に記載されている。具体的には、音声データを一定の時間長、例えば、20ミリ秒から40ミリ秒程度に区切った上で、当該音声区間に特徴的な指標である特徴情報を多次元ベクトルとして抽出し、抽出した特徴情報と音声特徴データベースに格納された各コンテンツの特徴情報との照合を行うことで、コンテンツの特定を行う。ここで、前述の多次元ベクトルとしては、例えば、メル周波数ケプストラム係数などを用いることができる。

ここでは、コンテンツが、テレビなどの放送番組である場合を例に、以下に説明する。この場合、音声特徴DB２４には、今現在、放送が行われている番組の音声データの特徴情報が格納されるものとする。サーバ２（または、図示しない外部システム）は、各放送波による放送番組をそれぞれ受信し、各放送番組の音声データを前述のように一定の時間長毎に区切った上で、当該の音声区間に特徴的な指標である特徴情報を抽出し、音声特徴DB２４に逐次的に格納する。クライアント１から送信される音声データから得られる特徴情報と、音声特徴DB２４に格納される各放送番組の音声データの特徴情報との間には、所定のタイムラグは生じるものの、クライアント１で利用者が視聴している放送番組の音声データが、ほぼリアルタイムでサーバ２に送信され、当該音声データの特徴情報が抽出されて、音声特徴DB２４の各番組の特徴情報と、照合することによって、本実施形態では、現在放送中の放送番組であっても、利用者が視聴している番組の特定が可能となる。

なお、音声特徴DB２４には、放送番組毎に、番組IDと、音声データの特徴情報とが対応付けて記憶されるものとする。

また、音声特徴DB２４には、各放送番組の音声データの特徴情報ではなく、各放送番組の音声データそのものを記憶することとしてもよい。この場合、コンテンツ特定部２２は、Ｓ５のコンテンツの特定処理において、音声特徴DB２４に記憶された各放送番組の特徴情報を抽出し、クライアント１から送信された音声データの特徴情報と照合するものとする。

図３は、ユーザが視聴しているコンテンツの特定処理（Ｓ５）の流れを示すフローチャートである。ここでは、コンテンツが放送番組である場合を例に説明する。

まず、コンテンツ特定部２２は、クライアント１から送信される位置情報が取得済みか否かを判別し（Ｓ１１）、取得済みの場合（Ｓ１１：ＹＥＳ）、当該位置情報に基づいて、当該位置が属する地域で現在放送されている放送番組を絞込む（すなわち特定する）。そして、コンテンツ特定部２２は、クライアント１から送信された音声データ（背景音声データ）から音声の特徴情報を抽出し、当該特徴情報を、音声特徴DB２４内の絞込んだ各放送番組の特徴情報とそれぞれ照合し、利用者が現在視聴している放送番組を推定する（Ｓ１２）。

すなわち、コンテンツ特定部２２は、音声特徴DB２４内の絞込んだ各放送番組について、音声データの特徴情報と照合し、照合結果である確率値（もしくは、確信度ともいう）を算出する。なお、コンテンツ特定部２２においては、クライアント１より通信部２１を通して受け取った音声データの一定時間内での信号強度の情報を用いて、信号強度が小さい部分を背景音声データだけが含まれるものとして、そのデータのみを用いることによってコンテンツ特定の精度を向上させることもできる。さらに、クライアント１より通信部２１を通して受け取った音声データが複数チャネルから構成される場合（ステレオ音声データ）には、位相差の情報を利用して、音源までの距離を特定することで音源分離を行い、距離が遠いと判定される音声データの成分を背景音声とすることでコンテンツ特定の精度を高め、かつ、距離の近い成分を認識すべき発話部分として音声認識を行うことで、音声認識の精度を高めることも可能である。

あらかじめ定めた所定の確率値より大きな放送番組が存在する場合（Ｓ１３：ＹＥＳ）、コンテンツ特定部２２は、当該放送番組を利用者が現在視聴している視聴番組であると特定し、当該視聴番組を識別する番組IDを音声認識部２３に出力する（Ｓ１５）。

一方、当該地域で放送されている放送番組の中で所定の確率値より大きな番組が存在しない場合（Ｓ１３：ＮＯ）、コンテンツ特定部２２は、音声特徴DB２４に記憶された全ての放送番組の特徴情報と、クライアント１から送信された音声データの特徴情報とを照合し、それぞれの確率値を算出する（Ｓ１４）。そして、コンテンツ特定部２２は、確率値が最も大きい放送番組を利用者が現在視聴している視聴番組であると特定し、当該視聴番組を識別する番組IDを音声認識部２３に出力する（Ｓ１５）。

なお、利用者は常に現在放送中の番組を見ているわけではなく、録画したものを再生する、いわゆるタイムシフト視聴を行っている可能性がある。音声特徴DB２４に過去の放送番組の特徴情報が記憶されている場合は、音声特徴DB２４に記憶された過去を含む全ての放送番組の特徴情報との照合を行うことで、過去の番組であっても、利用者の視聴番組を特定することができる。

次に、Ｓ６の音声認識処理では、音声認識部２３は、クライアント１から送信された音声データの中から利用者が音声により入力を行った発話音声データを音声認識し、認識結果を通信部２１を介してクライアント１に返却（送信）する。この音声認識処理においては、一般に、次に示す２つの側面で認識結果が確率値を伴って複数得られる形（N-Best解）となる。

第一に、認識対象の音声データに対して、日本語であれば平仮名の連続として発話内容を認識する際に、音声データに雑音等が混じり不明瞭である場合には、確率値を伴って複数の候補が存在する。第二に、認識された平仮名に対して、適切な漢字を割り当て最終的な認識結果とする際にも、同音異字の問題により複数の候補が生じることとなる。

本実施形態では、確率値を伴った認識結果の複数の候補の中から、利用者の意図を汲むための情報源として、コンテンツ特定部２２により特定されたコンテンツおよび関連情報DB２５内に蓄積されたコンテンツと関連する関連情報（単語もしくは固有表現など）を利用する。

図４は、関連情報DB２５の一例を示す図である。図示する関連情報DB２５には、放送番組毎に、番組IDと、番組名と、放送日時と、放送局名と、少なくとも１つの関連情報とが、対応付けて表形式で記憶されている。関連情報には、例えば、出演者名、地名、その他の番組に関連するキーワードが設定される。なお、番組名、放送日時および放送局名も、関連情報の一部とする。

音声認識部２３は、認識結果として複数の候補が存在する場合、コンテンツ特定部２２が特定した放送番組の関連情報を関連情報DB２５から読み出し、読み出した関連情報を用いて複数の候補の中から利用者が意図する認識結果を選択する。

図５は、音声認識部２３が複数の候補の中から利用者が意図する認識結果を選択する際の処理の具体例を示すものである。

図示する例では、利用者はクライアント１に向かって「仙台で人気の居酒屋」と発話することで、クライアント１に操作指示を入力する。クライアント１に入力された発話音声データは、背景音声データとともにサーバ２に送信される。ここでは、利用者が「仙台」を発音する際に言い淀むなどして、明瞭でない発音でクライアント１に入力されるものとする。

サーバ２の音声認識部２３は、クライアント１から送信された音声データから発話音声データを抽出し（Ｓ２１）、発話音声データを音声認識してテキストに変換し、図示する複数の平仮名の認識結果候補（テキスト候補データ）を取得する（Ｓ２２）。すなわち、認識結果候補１の「せんだいでにんきのいざかや」と、認識結果候補２の「せんないでにんきのいざかや」とを認識結果として生成する。

一方、図示する例では、コンテンツ特定部２２により視聴番組として、図３に示す番組ID「200002」（ぶらり宮城旅）が特定されるものとする。これにより、音声認識部２３は、図３の関連情報DB２５から当該番組IDに対応付けて記憶されている関連情報（例えば、番組名、出演者名、地名など）を読み出す（Ｓ２３）。

そして、音声認識部２３は、Ｓ２２で認識した平仮名の認識結果候補１、２に対して、適切な漢字を割り当てる（Ｓ２４）。図示する例では、３つの認識結果候補（漢字）が生成される。すなわち、認識結果候補１の「仙台で人気の居酒屋」と、認識結果候補２の「川内で人気の居酒屋」と、認識結果候補３の「船内で人気の居酒屋」とを生成する。

そして、音声認識部２３は、候補となる複数の単語「仙台」、「川内」および「船内」の中から、関連情報DB２５から読み出した関連情報のいずれかと一致する（または、関連する）「仙台」に変換した認識結果候補１の「仙台で人気の居酒屋」を、利用者が意図する認識結果であると決定する。そして、音声認識部２３は、決定した「仙台で人気の居酒屋」（テキストデータ）を、通信部２１を用いてクライアント１に送信する。

なお、上記の具体例においては、音声認識部２３は、関連情報DB２５から読みだした関連情報のいずれかと一致する認識結果候補を選択すると記載したが、確率値を利用してユーザに提示する認識結果を決定することもできる。例えば、認識結果候補１の確率値がαで、認識結果候補２の確率値がβで、認識結果候補３の確率値がγの場合、関連情報DB２５から読み出した関連情報のいずれかと一致する（または、関連する）認識結果候補１の確率値αが大きくなるように調整する。例えば、所定の係数ｎを用いて、認識結果候補１の確率値を、α×ｎ、または、α＋ｎなどとすることが考えられる。そして、音声認識部２３は、複数の認識結果候補の中から、確率値が大きい順に並び替えを行った上で認識結果候補をユーザに提示する方法も考えられる。また、音声認識部２３は、複数の認識結果候補の中から、確率値が最も大きい認識結果候補をユーザに提示する認識結果として決定することとしてもよい。

＜変形例＞
上記実施形態では、利用者が利用しているコンテンツを考慮し、音声認識の精度を向上させる方法について、コンテンツが放送番組である場合を中心に説明した。この音声認識システムを適用して、利用者に関連する情報配信を行う変形例も考えられる。

図６は、変形例の情報配信システムの一例を示す図である。

図６に示す情報配信システムは、図１で示したサーバ２（音声認識装置）を応用したシステムである。具体的には、図１では、１つのサーバ２としたが、実際のシステム構築および運用時においては、１つのサーバに機能を集約するよりも、まとまった機能単位でサーバを分割した方が効率的である場合がある。このため、図６に示す変形例では、３つのサーバ２Ａ、２Ｂ、２Ｃから情報配信装置が構成されるものとする。

ここで、図１のサーバ２との差分は、サーバ２Ａの情報提示部２６および情報DB２７である。情報提示部２６は、コンテンツ特定部２２により特定されたコンテンツと、音声認識部２３による音声認識結果と、クライアント１から送信される利用者の位置情報とを用いて、利用者にとって有用な情報を提示・配信する。情報DB２７には、利用者に提供する、各種の情報が格納されている。

すなわち、一般的な音声入力により、様々な情報が記憶された情報DBを検索して、利用者に情報を提示する場合と比較して、変形例の情報配信システムでは、利用者が視聴しているコンテンツを特定することにより、同音異字の問題を解消した音声認識結果が得られ、より利用者の意図を汲んだ情報を提示することが可能となるだけでなく、利用者の位置情報を利用することで提示する情報の編集、または、優先順位を調整することができ、提示する情報の精度および質をより高めることが可能となる。

一例として、図６に示す情報配信システムが、主にホテル・旅館等の宿泊施設情報を対象としたものである場合、情報DB２７に含まれる情報は、当然、宿泊施設情報となる。前述の図５の例で示したように、視聴している放送番組が宮城県に関する旅行番組であり、音声認識結果が「宮城県の旅館」の場合、情報提示部２６は、利用者の位置情報を用いて、情報DB２７から検索した結果を編集する。例えば、利用者の位置情報が宮城県である場合には、情報提示部２６は、情報DB２７の中から検索した宮城県内の宿泊施設の宿泊プランを提示するよりも、日帰りプランが存在する宿泊施設について優先的に提示する方が効果的であると判別し、日帰りプランが存在する宿泊施設の情報の優先度を高く設定する。一方、情報提示部２６は、利用者の位置情報が大阪である場合には、宿泊プランのみを提示する方が適切であると判別し、日帰りプランについては検索結果から削除することなどが考えられる。

以上説明した本実施形態では、ユーザが入力した音声データに付随する背景音声データを用いてユーザが利用しているコンテンツを特定し、特定したコンテンツに関連する関連情報を考慮してユーザが入力した音声データを音声認識してテキストデータに変換する。これにより、本実施形態では、音声認識の精度を向上し、利用者が意図した音声データの認識結果を提供することができる。

また、本実施形態では、音声データ中の背景音声から、利用しているコンテンツを特定する際に、クライアント１の位置情報を用いる。これにより、コンテンツの特定精度を高めるとともに、効率化することができ、さらに、音声認識の精度を向上することができる。

なお、本発明は上記実施形態に限定されるものではなく、特許請求の範囲内において、種々変更・応用が可能である。例えば、上記実施形態では、放送番組を背景音声として利用する形態を例として説明したが、背景音声として利用可能なものは放送番組の音声データのみに限らない。例えば、音楽の楽曲を聞きながら音楽情報に関するウェブページを閲覧している際に、聞いている楽曲を特定し、利用者の位置情報を考慮し、当該楽曲の演奏者の近隣でのイベント開催情報がある場合にはそれを提示するといった利用も可能となる。

１：クライアント
１１：音声取得部
１２：位置取得部
１３：通信部
１４：結果表示部
２：サーバ
２１：通信部
２２：コンテンツ特定部
２３：音声認識部
２４：音声特徴DB
２５：関連情報DB
２６：情報構築部

Claims

音声認識装置であって、
ユーザが入力した音声データに付随する背景音声データから、音声の特徴情報を抽出し、複数のコンテンツの音声の特徴情報が記憶された音声特徴記憶部を用いてユーザが利用しているコンテンツを特定する特定部と、
前記音声データを音声認識して、少なくとも１つのテキスト候補データに変換し、前記特定したコンテンツに関する関連情報を用いて、前記テキスト候補データの中からユーザに提示するテキストデータを決定する音声認識部と、を備えること
を特徴とする音声認識装置。
請求項１記載の音声認識装置であって、
前記コンテンツは、放送番組であること
を特徴とする音声認識装置。
請求項２記載の音声認識装置であって、
前記特定部は、ユーザの位置情報を取得し、前記音声特徴記憶部に記憶されたコンテンツの中から前記位置情報に応じた放送番組を絞込み、絞込んだ各放送番組の特徴情報と、前記背景音声データの特徴情報とを照合することでユーザが視聴している放送番組を特定すること
を特徴とする音声認識装置。
音声認識装置が行う音声認識方法であって、
ユーザが入力した音声データに付随する背景音声データから、音声の特徴情報を抽出し、複数のコンテンツの音声の特徴情報が記憶された音声特徴記憶部を用いてユーザが利用しているコンテンツを特定する特定ステップと、
前記音声データを音声認識して、少なくとも１つのテキスト候補データに変換する変換ステップと、
前記特定したコンテンツに関する関連情報を用いて、前記テキスト候補データの中からユーザに提示するテキストデータを決定する決定ステップと、を行うこと
を特徴とする音声認識方法。
請求項１から請求項３のいずれか１項に記載の音声認識装置として、コンピュータを機能させることを特徴とする音声認識プログラム。