JP2016102899A - 音声認識装置、音声認識方法および音声認識プログラム - Google Patents

音声認識装置、音声認識方法および音声認識プログラム Download PDF

Info

Publication number
JP2016102899A
JP2016102899A JP2014241123A JP2014241123A JP2016102899A JP 2016102899 A JP2016102899 A JP 2016102899A JP 2014241123 A JP2014241123 A JP 2014241123A JP 2014241123 A JP2014241123 A JP 2014241123A JP 2016102899 A JP2016102899 A JP 2016102899A
Authority
JP
Japan
Prior art keywords
data
user
information
speech recognition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014241123A
Other languages
English (en)
Other versions
JP6322125B2 (ja
Inventor
滋 藤村
Shigeru Fujimura
滋 藤村
大喜 渡邊
Hiroyoshi Watanabe
大喜 渡邊
智広 山田
Tomohiro Yamada
智広 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014241123A priority Critical patent/JP6322125B2/ja
Publication of JP2016102899A publication Critical patent/JP2016102899A/ja
Application granted granted Critical
Publication of JP6322125B2 publication Critical patent/JP6322125B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】音声認識の精度を向上し、利用者が意図した音声認識結果を提示する。【解決手段】音声認識装置2であって、ユーザが入力した音声データに付随する背景音声データから、音声の特徴情報を抽出し、複数のコンテンツの音声の特徴情報が記憶された音声特徴記憶部を用いてユーザが利用しているコンテンツを特定する特定部22と、前記音声データを音声認識して、少なくとも1つのテキスト候補データに変換し、前記特定したコンテンツに関する関連情報を用いて、前記テキスト候補データの中からユーザに提示するテキストデータを決定する音声認識部23と、を備える。【選択図】図1

Description

本発明は、背景音声を考慮した音声認識を実施するための技術に関する。
ウェブ上のサービスにおいて、音声による高精度な入力手段を備えることは、利用者における利便性の面から重要なことは言うまでもない。近年、利用者がウェブ閲覧の際に用いる端末が多様化するにつれ、その処理能力も区々であり、高度な計算処理を行うに適さない端末もある。このことから、音声認識の処理は、サーバ・クライアントモデルでいうところのサーバで実施されることが多い。サーバ・クライアントモデルで音声認識を実施する際に、雑音に対する耐性を強化し、精度の向上を意識した方法が研究されている。
また、近年、主流となっている音声認識の具体的な処理方法は統計的機械学習に基づいたものであり、確率的に尤もらしいものを認識の結果として出力する。つまり、認識の結果はあくまで推定となる(非特許文献1参照)。
河原 達也,「音声認識の方法論に関する考察-世代交代に向けて-」,情報処理学会研究報告(SLP), 音声言語情報処理, 2014-SLP-100(3), pp.1-5, 2014.
日本語には発音上は同音であるが字が異なるものが多数ある、一例として、「せんだい」については、地名で「仙台(宮城県)」と「川内(鹿児島県)」があり、音だけでは区別がつかず、音声認識における入力情報が音声データのみである場合には推定が困難である。また、英語においても、発音上は同音であるが、スペルが異なるものがある。
本発明は、上記の課題について鑑みてなされたものであり、本発明の目的は、音声認識の精度を向上し、利用者が意図した音声認識結果を提示するための技術を提供することにある。
上記の課題を解決するため、本発明は、音声認識装置であって、ユーザが入力した音声データに付随する背景音声データから、音声の特徴情報を抽出し、複数のコンテンツの音声の特徴情報が記憶された音声特徴記憶部を用いてユーザが利用しているコンテンツを特定する特定部と、前記音声データを音声認識して、少なくとも1つのテキスト候補データに変換し、前記特定したコンテンツに関する関連情報を用いて、前記テキスト候補データの中からユーザに提示するテキストデータを決定する音声認識部と、を備える。
本発明は、音声認識装置が行う音声認識方法であって、ユーザが入力した音声データに付随する背景音声データから、音声の特徴情報を抽出し、複数のコンテンツの音声の特徴情報が記憶された音声特徴記憶部を用いてユーザが利用しているコンテンツを特定する特定ステップと、前記音声データを音声認識して、少なくとも1つのテキスト候補データに変換する変換ステップと、前記特定したコンテンツに関する関連情報を用いて、前記テキスト候補データの中からユーザに提示するテキストデータを決定する決定ステップと、を行う。
本発明は、前記音声認識装置として、コンピュータを機能させることを特徴とする音声認識プログラムである。
本発明によれば、音声認識の精度を向上し、利用者が意図した音声認識結果を提示するための技術を提供することができる。
本発明の実施形態の音声認識システムの構成を示すブロック図である。 音声認識システムの処理を示すシーケンス図である。 コンテンツ特定処理を示すフローチャートである。 関連情報DBの一例を示す図である。 音声認識処理の具体例を示す図である。 本実施形態の変形例である情報配信システムの構成を示すブロック図である。
以下、本発明の実施の形態を、図面を参照して説明する。
コンテンツ(例えば、テレビ等の放送番組)を視聴しながら、そのコンテンツと関連する情報をウェブで検索するといった行為は、現在では一般的に行われている。ここで、検索の際に音声による入力を用いると、入力される音声データは、利用者(ユーザ)の検索要求となる音声(発話音声)に加え、背後に流れるコンテンツの音声も背景音声として音声データの中に含まれる。本実施形態では、この背景音声を用いて利用者が現在、利用しているコンテンツを特定し、当該コンテンツに関連する情報を、音声で入力された検索要求の内容を高精度に認識するための情報源とする。
図1は、本実施形態の音声認識システムの構成を示す構成図である。図示する音声認識システムでは、クライアント1と、サーバ2(音声認識装置)とを備える。本実施形態では、クライアント1は、音声認識機能を備えることなく、サーバ2側(ウェブページ上)での音声認識機能の利用を想定している。
現状では、一般的にウェブページの閲覧はブラウザを通して行われるため、クライアント1はブラウザとなる。ウェブページは、通常、HTML、CSS、JavaScriptによって構成され、クライアント1においては、JavaScriptなどのプログラムによって以下に説明する各機能部が実現されるものとする。
クライアント1は、利用者が使用する利用者端末であって、スマートフォン、タブレット端末、PCなどを用いることができる。図示するクライアント1は、音声取得部11と、位置取得部12と、通信部13と、結果表示部14とを備える。
音声取得部11は、当該クライアント1が備えるマイク(不図示)を用いて、音声データを取得する。なお、従来、ブラウザにおいて、マイクから音声を取得するには、プラグインなどと呼ばれる特殊なソフトウェアをあらかじめブラウザにインストールしておくことが一般的であったが、近年は、急速に機能の整備が進みつつある広義のHTML5に含まれる、ブラウザ上のJavaScriptから利用可能なAPI(Application Programming Interface)を活用することで、特殊なソフトウェアをインストールすることなしにマイクから音声を取得することが可能となった。
ここで、上記JavaScriptから利用可能なAPIを活用することで実現が可能であるということは、ウェブサーバから配信されるウェブページ内の記述のみでマイクから音声を取得可能になるということである。具体的には、getUserMediaおよびWeb Audio APIを活用することで、音声取得部11は、取得した音声データをストリーミング形式により通信部13に渡すことが可能となる。
位置取得部12は、当該クライアント1の位置情報(所在地情報)を取得する。なお、位置取得部12についても、音声取得部11と同様に、JavaScriptから利用可能なAPIを活用することで位置情報の取得が可能となる。具体的には、Geolocation APIを活用し、navigator.geolocation.getCurrentPosition関数を利用することで、現在位置の情報が取得可能である。
通信部13は、音声取得部11が取得した音声データ、および、位置取得部12が取得した位置情報を、ネットワークを介してサーバ2に送信する。なお、音声データについては、通信部13は、ストリーミング形式でサーバ2に送信する。ここで、ストリーミングでの送信については、HTML5の機能の一つであるWebSocketを用いる。位置情報については、通信部13は、位置取得部12が取得でき次第、すなわち、位置取得部12が位置情報を取得したタイミングでサーバ2に送信する。また、通信部13は、サーバから送信された情報を受信し、結果表示部14に送出する。
結果表示部14は、通信部13を介してサーバ3から受信した認識結果などの各種情報を、ディスプレイ(不図示)に表示する。
なお、本実施形態では、音声取得部11は、利用者の発話による音声データ(発話音声データ)の入力が行われる以前から、背後に流れているコンテンツ(視聴内容)の音声データ(背景音声データ)を取得し、通信部13は、当該音声データをサーバ2に送信し続ける。これにより、利用者が視聴しているコンテンツを特定するための音声データの量が増加し、コンテンツ特定の精度を向上することができる。
サーバ2は、クライアント1から送信された音声データを音声認識し、認識結果をクライアント1に提供する。なお、サーバ2においては、実装言語の制約などはない。図示するサーバ2は、通信部21と、コンテンツ特定部22と、音声認識部23と、音声特徴DB(データベース)24と、関連情報DB25とを備える。
通信部21は、クライアント1から送信される音声データおよび位置情報を受信し、受信した音声データおよび位置情報をコンテンツ特定部22に送出するとともに、クライアント1から送信される音声データを音声認識部23に送出する。また、通信部21は、音声認識部23の認識結果をクライアント1に送信する。
コンテンツ特定部22は、ユーザが入力した音声データに付随する背景音声データから、音声の特徴情報を抽出し、音声特徴DB24を用いて利用者が利用しているコンテンツを特定する。また、本実施形態では、コンテンツ特定部22は、ユーザの位置情報を取得し、音声特徴DB24に記憶されたコンテンツの中から当該位置情報に応じた放送番組を絞込み、絞込んだ各コンテンツの特徴情報と、背景音声データの特徴情報とをそれぞれ照合することで、ユーザが視聴しているコンテンツを特定する。すなわち、位置情報を用いて確度を高めたうえで、音声データを基に音声特徴DB24を用いてユーザが利用しているコンテンツを特定する。コンテンツ特定部22は、特定したコンテンツを識別するための情報(例えば、コンテンツIDなど)を、音声認識部23に送出する。
音声認識部23は、音声データを音声認識して、少なくとも1つの認識結果候補であるテキスト候補データに変換し、特定したコンテンツに関する関連情報を用いて、テキスト候補データの中からユーザに提示するテキストデータを決定する。具体的には、音声認識部23は、通信部21より受け取ったユーザが発話した音声データの音声認識を行い、コンテンツ特定部22が特定したコンテンツの関連情報を関連情報DB25から取得し、コンテンツに関連するテキスト候補データが選択される確率を高くする。そして、音声認識部23は、選択したテキスト候補データを、通信部21を介してクライアント1に送信する。
音声特徴DB24には、複数のコンテンツの音声の特徴情報が記憶される。関連情報DB25には、複数のコンテンツに関する関連情報が記憶される。
なお、上記説明した、クライアント1およびサーバ2は、例えば、CPUと、メモリと、ハードディスク等の外部記憶装置と、入力装置と、出力装置とを備えた汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、CPUがメモリ上にロードされた所定のプログラムを実行することにより、各部の各機能が実現される。例えば、クライアント1およびサーバ2の各機能は、クライアント1用のプログラムの場合はユーザ端末1のCPUが、そして、サーバ2用のプログラムの場合はサーバ2のCPUがそれぞれ実行することにより実現される。
また、クライアント1のプログラムおよびサーバ2用のプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD−ROMなどのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。
以下に、本実施形態の処理について説明する。
図2は、音声認識システムの処理を示すシーケンス図である。クライアント1の音声取得部11は、マイクより音声データを取得し(S1)、通信部13を用いてサーバ2に送信する(S2)。なお、音声データには、ユーザが発話することで入力した発話音声データと、ユーザが利用(視聴)しているコンテンツの背景音声データとが含まれる。なお、音声データは、ストリーミング形式でサーバ2に送信される。
また、クライアント1の位置取得部12は、位置情報を取得し(S3)、通信部13を用いてサーバ2に送信する(S4)。なお、S1およびS2の処理と、S3およびS4の処理とは、非同期に行われるものであって、S3およびS4の処理は、S1およびS2の処理の前に行われる、または、S1およびS2の処理の間に行われるなど、処理の順序は図2に示す例に限定されるものではない。
サーバ2のコンテンツ特定部22は、クライアント1から送信された音声データの背景音声データから音声の特徴情報を抽出し、音声特徴DB24を用いて利用者が利用しているコンテンツを特定する(S5)。そして、サーバ2の音声認識部23は、クライアント1から送信された音声データの発話データを音声認識して、少なくとも1つのテキスト化された認識結果候補に変換し、関連情報DB25を参照して、特定したコンテンツに関する関連情報を用いて、テキスト候補データの中からユーザに提示するテキストデータを決定する(S6)。なお、S5およびS6の処理については後述する。
そして、音声認識部23は、決定したテキストデータを通信部21を用いてクライアント1に送信する(S7)。クライアント1の結果表示部14は、通信部13を用いてサーバ2から受信した認識結果を、ディスプレイに表示する(S8)。
以下に、S5およびS6の処理について、詳細に説明する。
S5のコンテンツ特定処理では、通信部21を介して得られた音声データと位置情報とを用いて、クライアント1の利用者が利用しているコンテンツを特定する。ここで、音声データを利用してコンテンツを特定する方法については、自動コンテンツ認識(ACR)技術の中でも音声フィンガープリントと呼ばれる方法が知られている。
音声フィンガープリントについては、特開2004−326050号公報(以下、「文献1」に記載されている。具体的には、音声データを一定の時間長、例えば、20ミリ秒から40ミリ秒程度に区切った上で、当該音声区間に特徴的な指標である特徴情報を多次元ベクトルとして抽出し、抽出した特徴情報と音声特徴データベースに格納された各コンテンツの特徴情報との照合を行うことで、コンテンツの特定を行う。ここで、前述の多次元ベクトルとしては、例えば、メル周波数ケプストラム係数などを用いることができる。
ここでは、コンテンツが、テレビなどの放送番組である場合を例に、以下に説明する。この場合、音声特徴DB24には、今現在、放送が行われている番組の音声データの特徴情報が格納されるものとする。サーバ2(または、図示しない外部システム)は、各放送波による放送番組をそれぞれ受信し、各放送番組の音声データを前述のように一定の時間長毎に区切った上で、当該の音声区間に特徴的な指標である特徴情報を抽出し、音声特徴DB24に逐次的に格納する。クライアント1から送信される音声データから得られる特徴情報と、音声特徴DB24に格納される各放送番組の音声データの特徴情報との間には、所定のタイムラグは生じるものの、クライアント1で利用者が視聴している放送番組の音声データが、ほぼリアルタイムでサーバ2に送信され、当該音声データの特徴情報が抽出されて、音声特徴DB24の各番組の特徴情報と、照合することによって、本実施形態では、現在放送中の放送番組であっても、利用者が視聴している番組の特定が可能となる。
なお、音声特徴DB24には、放送番組毎に、番組IDと、音声データの特徴情報とが対応付けて記憶されるものとする。
また、音声特徴DB24には、各放送番組の音声データの特徴情報ではなく、各放送番組の音声データそのものを記憶することとしてもよい。この場合、コンテンツ特定部22は、S5のコンテンツの特定処理において、音声特徴DB24に記憶された各放送番組の特徴情報を抽出し、クライアント1から送信された音声データの特徴情報と照合するものとする。
図3は、ユーザが視聴しているコンテンツの特定処理(S5)の流れを示すフローチャートである。ここでは、コンテンツが放送番組である場合を例に説明する。
まず、コンテンツ特定部22は、クライアント1から送信される位置情報が取得済みか否かを判別し(S11)、取得済みの場合(S11:YES)、当該位置情報に基づいて、当該位置が属する地域で現在放送されている放送番組を絞込む(すなわち特定する)。そして、コンテンツ特定部22は、クライアント1から送信された音声データ(背景音声データ)から音声の特徴情報を抽出し、当該特徴情報を、音声特徴DB24内の絞込んだ各放送番組の特徴情報とそれぞれ照合し、利用者が現在視聴している放送番組を推定する(S12)。
すなわち、コンテンツ特定部22は、音声特徴DB24内の絞込んだ各放送番組について、音声データの特徴情報と照合し、照合結果である確率値(もしくは、確信度ともいう)を算出する。なお、コンテンツ特定部22においては、クライアント1より通信部21を通して受け取った音声データの一定時間内での信号強度の情報を用いて、信号強度が小さい部分を背景音声データだけが含まれるものとして、そのデータのみを用いることによってコンテンツ特定の精度を向上させることもできる。さらに、クライアント1より通信部21を通して受け取った音声データが複数チャネルから構成される場合(ステレオ音声データ)には、位相差の情報を利用して、音源までの距離を特定することで音源分離を行い、距離が遠いと判定される音声データの成分を背景音声とすることでコンテンツ特定の精度を高め、かつ、距離の近い成分を認識すべき発話部分として音声認識を行うことで、音声認識の精度を高めることも可能である。
あらかじめ定めた所定の確率値より大きな放送番組が存在する場合(S13:YES)、コンテンツ特定部22は、当該放送番組を利用者が現在視聴している視聴番組であると特定し、当該視聴番組を識別する番組IDを音声認識部23に出力する(S15)。
一方、当該地域で放送されている放送番組の中で所定の確率値より大きな番組が存在しない場合(S13:NO)、コンテンツ特定部22は、音声特徴DB24に記憶された全ての放送番組の特徴情報と、クライアント1から送信された音声データの特徴情報とを照合し、それぞれの確率値を算出する(S14)。そして、コンテンツ特定部22は、確率値が最も大きい放送番組を利用者が現在視聴している視聴番組であると特定し、当該視聴番組を識別する番組IDを音声認識部23に出力する(S15)。
なお、利用者は常に現在放送中の番組を見ているわけではなく、録画したものを再生する、いわゆるタイムシフト視聴を行っている可能性がある。音声特徴DB24に過去の放送番組の特徴情報が記憶されている場合は、音声特徴DB24に記憶された過去を含む全ての放送番組の特徴情報との照合を行うことで、過去の番組であっても、利用者の視聴番組を特定することができる。
次に、S6の音声認識処理では、音声認識部23は、クライアント1から送信された音声データの中から利用者が音声により入力を行った発話音声データを音声認識し、認識結果を通信部21を介してクライアント1に返却(送信)する。この音声認識処理においては、一般に、次に示す2つの側面で認識結果が確率値を伴って複数得られる形(N-Best解)となる。
第一に、認識対象の音声データに対して、日本語であれば平仮名の連続として発話内容を認識する際に、音声データに雑音等が混じり不明瞭である場合には、確率値を伴って複数の候補が存在する。第二に、認識された平仮名に対して、適切な漢字を割り当て最終的な認識結果とする際にも、同音異字の問題により複数の候補が生じることとなる。
本実施形態では、確率値を伴った認識結果の複数の候補の中から、利用者の意図を汲むための情報源として、コンテンツ特定部22により特定されたコンテンツおよび関連情報DB25内に蓄積されたコンテンツと関連する関連情報(単語もしくは固有表現など)を利用する。
図4は、関連情報DB25の一例を示す図である。図示する関連情報DB25には、放送番組毎に、番組IDと、番組名と、放送日時と、放送局名と、少なくとも1つの関連情報とが、対応付けて表形式で記憶されている。関連情報には、例えば、出演者名、地名、その他の番組に関連するキーワードが設定される。なお、番組名、放送日時および放送局名も、関連情報の一部とする。
音声認識部23は、認識結果として複数の候補が存在する場合、コンテンツ特定部22が特定した放送番組の関連情報を関連情報DB25から読み出し、読み出した関連情報を用いて複数の候補の中から利用者が意図する認識結果を選択する。
図5は、音声認識部23が複数の候補の中から利用者が意図する認識結果を選択する際の処理の具体例を示すものである。
図示する例では、利用者はクライアント1に向かって「仙台で人気の居酒屋」と発話することで、クライアント1に操作指示を入力する。クライアント1に入力された発話音声データは、背景音声データとともにサーバ2に送信される。ここでは、利用者が「仙台」を発音する際に言い淀むなどして、明瞭でない発音でクライアント1に入力されるものとする。
サーバ2の音声認識部23は、クライアント1から送信された音声データから発話音声データを抽出し(S21)、発話音声データを音声認識してテキストに変換し、図示する複数の平仮名の認識結果候補(テキスト候補データ)を取得する(S22)。すなわち、認識結果候補1の「せんだいでにんきのいざかや」と、認識結果候補2の「せんないでにんきのいざかや」とを認識結果として生成する。
一方、図示する例では、コンテンツ特定部22により視聴番組として、図3に示す番組ID「200002」(ぶらり宮城旅)が特定されるものとする。これにより、音声認識部23は、図3の関連情報DB25から当該番組IDに対応付けて記憶されている関連情報(例えば、番組名、出演者名、地名など)を読み出す(S23)。
そして、音声認識部23は、S22で認識した平仮名の認識結果候補1、2に対して、適切な漢字を割り当てる(S24)。図示する例では、3つの認識結果候補(漢字)が生成される。すなわち、認識結果候補1の「仙台で人気の居酒屋」と、認識結果候補2の「川内で人気の居酒屋」と、認識結果候補3の「船内で人気の居酒屋」とを生成する。
そして、音声認識部23は、候補となる複数の単語「仙台」、「川内」および「船内」の中から、関連情報DB25から読み出した関連情報のいずれかと一致する(または、関連する)「仙台」に変換した認識結果候補1の「仙台で人気の居酒屋」を、利用者が意図する認識結果であると決定する。そして、音声認識部23は、決定した「仙台で人気の居酒屋」(テキストデータ)を、通信部21を用いてクライアント1に送信する。
なお、上記の具体例においては、音声認識部23は、関連情報DB25から読みだした関連情報のいずれかと一致する認識結果候補を選択すると記載したが、確率値を利用してユーザに提示する認識結果を決定することもできる。例えば、認識結果候補1の確率値がαで、認識結果候補2の確率値がβで、認識結果候補3の確率値がγの場合、関連情報DB25から読み出した関連情報のいずれかと一致する(または、関連する)認識結果候補1の確率値αが大きくなるように調整する。例えば、所定の係数nを用いて、認識結果候補1の確率値を、α×n、または、α+nなどとすることが考えられる。そして、音声認識部23は、複数の認識結果候補の中から、確率値が大きい順に並び替えを行った上で認識結果候補をユーザに提示する方法も考えられる。また、音声認識部23は、複数の認識結果候補の中から、確率値が最も大きい認識結果候補をユーザに提示する認識結果として決定することとしてもよい。
<変形例>
上記実施形態では、利用者が利用しているコンテンツを考慮し、音声認識の精度を向上させる方法について、コンテンツが放送番組である場合を中心に説明した。この音声認識システムを適用して、利用者に関連する情報配信を行う変形例も考えられる。
図6は、変形例の情報配信システムの一例を示す図である。
図6に示す情報配信システムは、図1で示したサーバ2(音声認識装置)を応用したシステムである。具体的には、図1では、1つのサーバ2としたが、実際のシステム構築および運用時においては、1つのサーバに機能を集約するよりも、まとまった機能単位でサーバを分割した方が効率的である場合がある。このため、図6に示す変形例では、3つのサーバ2A、2B、2Cから情報配信装置が構成されるものとする。
ここで、図1のサーバ2との差分は、サーバ2Aの情報提示部26および情報DB27である。情報提示部26は、コンテンツ特定部22により特定されたコンテンツと、音声認識部23による音声認識結果と、クライアント1から送信される利用者の位置情報とを用いて、利用者にとって有用な情報を提示・配信する。情報DB27には、利用者に提供する、各種の情報が格納されている。
すなわち、一般的な音声入力により、様々な情報が記憶された情報DBを検索して、利用者に情報を提示する場合と比較して、変形例の情報配信システムでは、利用者が視聴しているコンテンツを特定することにより、同音異字の問題を解消した音声認識結果が得られ、より利用者の意図を汲んだ情報を提示することが可能となるだけでなく、利用者の位置情報を利用することで提示する情報の編集、または、優先順位を調整することができ、提示する情報の精度および質をより高めることが可能となる。
一例として、図6に示す情報配信システムが、主にホテル・旅館等の宿泊施設情報を対象としたものである場合、情報DB27に含まれる情報は、当然、宿泊施設情報となる。前述の図5の例で示したように、視聴している放送番組が宮城県に関する旅行番組であり、音声認識結果が「宮城県の旅館」の場合、情報提示部26は、利用者の位置情報を用いて、情報DB27から検索した結果を編集する。例えば、利用者の位置情報が宮城県である場合には、情報提示部26は、情報DB27の中から検索した宮城県内の宿泊施設の宿泊プランを提示するよりも、日帰りプランが存在する宿泊施設について優先的に提示する方が効果的であると判別し、日帰りプランが存在する宿泊施設の情報の優先度を高く設定する。一方、情報提示部26は、利用者の位置情報が大阪である場合には、宿泊プランのみを提示する方が適切であると判別し、日帰りプランについては検索結果から削除することなどが考えられる。
以上説明した本実施形態では、ユーザが入力した音声データに付随する背景音声データを用いてユーザが利用しているコンテンツを特定し、特定したコンテンツに関連する関連情報を考慮してユーザが入力した音声データを音声認識してテキストデータに変換する。これにより、本実施形態では、音声認識の精度を向上し、利用者が意図した音声データの認識結果を提供することができる。
また、本実施形態では、音声データ中の背景音声から、利用しているコンテンツを特定する際に、クライアント1の位置情報を用いる。これにより、コンテンツの特定精度を高めるとともに、効率化することができ、さらに、音声認識の精度を向上することができる。
なお、本発明は上記実施形態に限定されるものではなく、特許請求の範囲内において、種々変更・応用が可能である。例えば、上記実施形態では、放送番組を背景音声として利用する形態を例として説明したが、背景音声として利用可能なものは放送番組の音声データのみに限らない。例えば、音楽の楽曲を聞きながら音楽情報に関するウェブページを閲覧している際に、聞いている楽曲を特定し、利用者の位置情報を考慮し、当該楽曲の演奏者の近隣でのイベント開催情報がある場合にはそれを提示するといった利用も可能となる。
1 :クライアント
11:音声取得部
12:位置取得部
13:通信部
14:結果表示部
2 :サーバ
21:通信部
22:コンテンツ特定部
23:音声認識部
24:音声特徴DB
25:関連情報DB
26:情報構築部

Claims (5)

  1. 音声認識装置であって、
    ユーザが入力した音声データに付随する背景音声データから、音声の特徴情報を抽出し、複数のコンテンツの音声の特徴情報が記憶された音声特徴記憶部を用いてユーザが利用しているコンテンツを特定する特定部と、
    前記音声データを音声認識して、少なくとも1つのテキスト候補データに変換し、前記特定したコンテンツに関する関連情報を用いて、前記テキスト候補データの中からユーザに提示するテキストデータを決定する音声認識部と、を備えること
    を特徴とする音声認識装置。
  2. 請求項1記載の音声認識装置であって、
    前記コンテンツは、放送番組であること
    を特徴とする音声認識装置。
  3. 請求項2記載の音声認識装置であって、
    前記特定部は、ユーザの位置情報を取得し、前記音声特徴記憶部に記憶されたコンテンツの中から前記位置情報に応じた放送番組を絞込み、絞込んだ各放送番組の特徴情報と、前記背景音声データの特徴情報とを照合することでユーザが視聴している放送番組を特定すること
    を特徴とする音声認識装置。
  4. 音声認識装置が行う音声認識方法であって、
    ユーザが入力した音声データに付随する背景音声データから、音声の特徴情報を抽出し、複数のコンテンツの音声の特徴情報が記憶された音声特徴記憶部を用いてユーザが利用しているコンテンツを特定する特定ステップと、
    前記音声データを音声認識して、少なくとも1つのテキスト候補データに変換する変換ステップと、
    前記特定したコンテンツに関する関連情報を用いて、前記テキスト候補データの中からユーザに提示するテキストデータを決定する決定ステップと、を行うこと
    を特徴とする音声認識方法。
  5. 請求項1から請求項3のいずれか1項に記載の音声認識装置として、コンピュータを機能させることを特徴とする音声認識プログラム。
JP2014241123A 2014-11-28 2014-11-28 音声認識装置、音声認識方法および音声認識プログラム Active JP6322125B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014241123A JP6322125B2 (ja) 2014-11-28 2014-11-28 音声認識装置、音声認識方法および音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014241123A JP6322125B2 (ja) 2014-11-28 2014-11-28 音声認識装置、音声認識方法および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2016102899A true JP2016102899A (ja) 2016-06-02
JP6322125B2 JP6322125B2 (ja) 2018-05-09

Family

ID=56089408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014241123A Active JP6322125B2 (ja) 2014-11-28 2014-11-28 音声認識装置、音声認識方法および音声認識プログラム

Country Status (1)

Country Link
JP (1) JP6322125B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109994110A (zh) * 2018-12-06 2019-07-09 平安科技(深圳)有限公司 基于人工智能的语音识别方法、装置、计算机设备
WO2021171820A1 (ja) * 2020-02-27 2021-09-02 ソニーグループ株式会社 情報処理装置、および情報処理方法、並びにプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102659863B1 (ko) 2018-11-28 2024-04-24 삼성전자주식회사 전자 장치 및 그 제어 방법

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000020095A1 (en) * 1998-10-01 2000-04-13 Walkisoft Finland Oy Production method for multilayer filter material and multilayer filter material
JP2001249686A (ja) * 2000-03-08 2001-09-14 Matsushita Electric Ind Co Ltd 音声認識方法、音声認識装置、およびナビゲーション装置
JP2002341892A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd 音声認識装置
JP2004295102A (ja) * 2003-03-13 2004-10-21 Matsushita Electric Ind Co Ltd 音声認識辞書作成装置及び情報検索装置
JP2007025076A (ja) * 2005-07-13 2007-02-01 Xanavi Informatics Corp 車載用音声認識装置
JP2007178927A (ja) * 2005-12-28 2007-07-12 Canon Inc 情報検索装置および方法
JP2012118918A (ja) * 2010-12-03 2012-06-21 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム、情報検索方法、情報検索プログラム
JP2013160883A (ja) * 2012-02-03 2013-08-19 Yamaha Corp 通信端末、プログラム、コンテンツサーバおよび通信システム
WO2014137612A1 (en) * 2013-03-06 2014-09-12 Qualcomm Incorporated Content based noise suppression

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000020095A1 (en) * 1998-10-01 2000-04-13 Walkisoft Finland Oy Production method for multilayer filter material and multilayer filter material
JP2001249686A (ja) * 2000-03-08 2001-09-14 Matsushita Electric Ind Co Ltd 音声認識方法、音声認識装置、およびナビゲーション装置
JP2002341892A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd 音声認識装置
JP2004295102A (ja) * 2003-03-13 2004-10-21 Matsushita Electric Ind Co Ltd 音声認識辞書作成装置及び情報検索装置
JP2007025076A (ja) * 2005-07-13 2007-02-01 Xanavi Informatics Corp 車載用音声認識装置
JP2007178927A (ja) * 2005-12-28 2007-07-12 Canon Inc 情報検索装置および方法
JP2012118918A (ja) * 2010-12-03 2012-06-21 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム、情報検索方法、情報検索プログラム
JP2013160883A (ja) * 2012-02-03 2013-08-19 Yamaha Corp 通信端末、プログラム、コンテンツサーバおよび通信システム
WO2014137612A1 (en) * 2013-03-06 2014-09-12 Qualcomm Incorporated Content based noise suppression

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山岡 孝行 TAKAYUKI YAMAOKA: "階層型プラン認識モデルを利用した次発話予測手法 A Method to Predict the Next Utterance Using a Layer", 電子情報通信学会論文誌 (J76−D−II) 第6号 THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONI, vol. 第J76-D-II巻, JPN6009010307, 25 June 1993 (1993-06-25), JP, pages 1203 - 1215, ISSN: 0003707618 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109994110A (zh) * 2018-12-06 2019-07-09 平安科技(深圳)有限公司 基于人工智能的语音识别方法、装置、计算机设备
WO2021171820A1 (ja) * 2020-02-27 2021-09-02 ソニーグループ株式会社 情報処理装置、および情報処理方法、並びにプログラム

Also Published As

Publication number Publication date
JP6322125B2 (ja) 2018-05-09

Similar Documents

Publication Publication Date Title
US11960526B2 (en) Query response using media consumption history
US20230402029A1 (en) Systems and methods for providing notifications within a media asset without breaking immersion
US10410627B2 (en) Automatic language model update
US9123330B1 (en) Large-scale speaker identification
US10917758B1 (en) Voice-based messaging
US11189277B2 (en) Dynamic gazetteers for personalized entity recognition
US20120271631A1 (en) Speech recognition using multiple language models
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
US10838954B1 (en) Identifying user content
US9922650B1 (en) Intent-specific automatic speech recognition result generation
CN105632487B (zh) 一种语音识别方法和装置
US8688447B1 (en) Method and system for domain-specific noisy channel natural language processing (NLP)
US11714973B2 (en) Methods and systems for control of content in an alternate language or accent
CN107943914A (zh) 语音信息处理方法和装置
JP6322125B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
WO2014203328A1 (ja) 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体
US11640426B1 (en) Background audio identification for query disambiguation
US11328713B1 (en) On-device contextual understanding
JP6115487B2 (ja) 情報収集方法、対話システム及び情報収集装置
JP5196114B2 (ja) 音声認識装置およびプログラム
US10847158B2 (en) Multi-modality presentation and execution engine
JP2022542415A (ja) 発音情報を使用して音声クエリを管理するためのシステムおよび方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180406

R150 Certificate of patent or registration of utility model

Ref document number: 6322125

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150