JP2007121577A

JP2007121577A - 音声再生装置

Info

Publication number: JP2007121577A
Application number: JP2005312002A
Authority: JP
Inventors: Masaya Hanazono; 正也花園; Takashi Nishiyama; 高史西山
Original assignee: Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 2005-10-26
Filing date: 2005-10-26
Publication date: 2007-05-17

Abstract

【課題】ユーザの操作に応じて合成音声によって再生出力したテキスト内容に対してユーザが疑問を発した際に、ユーザの疑問に対する応答内容を効率良く、また冗長性がなく提示することができる音声再生装置を提供することにある。
【解決手段】音声認識部１２は、マイクロホン１１で受け付けたユーザの音声によって形成される構文が疑問文か否かを判定するとともに、疑問文の場合疑問を示す疑問キーワードを抽出する疑問対象抽出部１２４を備えている。そして位置特定手段１３は、音声合成部１５によって生成されスピーカ１６から再生出力済みで、読上げ内容格納１４に格納されているテキストの内容に対して疑問キーワードを検索してユーザの疑問に対する答えに相応する箇所を特定し、この特定した箇所の合成音声を音声合成部で生成させてスピーカ１６から再生出力させる。
【選択図】図１

Description

本発明は、キッチンナビゲーション、カーナビゲーション、電子メール読上げ、ニュース読上げなどに適用できる音声再生装置に関するものである。

従来から合成音声でテキストを読み上げる装置が種々提供されているが、読み上げるテキストを聞き逃した場合に、最初から再び再生させるのは効率的でないため、読み上げられた結果を任意の時間長だけ遡って再度聞くことができる音声合成装置が提供されている（例えば、特許文献１）。

また単語や文節単位で読上げ開始位置を変更する、音声合成装置も提供されている（例えば、特許文献２）。

更に意味的な切れ目や発声に適した文節の切れ目に読上げ位置を設ける音声応答装置や音声合成装置も提供されている（特許文献３，特許文献４）。
特開２００４−６１６２５公報（公報１頁左欄の（解決手段））特開平２−４５８６８号公報（公報２頁左上欄第１６行乃至右下欄第３行）特開２０００−２６７６８７公報（段落番号０００６）特開２００１−３３１１９１公報（段落番号０００６〜０００７））

特許文献１乃至４に開示されている何れの装置も、テキストの読上げ単位を短くすることにより、聞き直しの時間を短くすることで課題の解決を図っているものであるが、何れの場合も、ユーザが聞き直しを求めるキーワード（例えば数詞情報など）のみを提示することはできない。つまり、一定の単位で遡ってそのまま音声を再生した場合、ユーザが求めるキーワード以外の情報も同時に再生されるということや、遡る位置を誤るとユーザが求めていないテキスト内容しか、再生されないという可能性があった。

本発明は上述の点に鑑みて為されたもので、その目的とするところは、ユーザの操作に応じて合成音声によって再生出力したテキスト内容に対してユーザが疑問を発した際に、ユーザの疑問に対する応答内容を効率良く、また冗長性がなく提示することができる音声再生装置を提供することにある。

上述の目的を達成するために請求項１の発明では、ユーザの操作に応じて予め備えられているテキストを合成音声で音声出力手段から再生出力させる音声再生装置において、ユーザからの音声を受け付ける音声受付手段と、該音声受付手段で受け付けた音声によって形成される構文が疑問文か否かを判定するとともに、疑問文の場合疑問を示す疑問キーワードを抽出する疑問対象抽出手段と、前記音声合成部から出力済みの合成音声の内容に対して、前記疑問キーワードを検索してユーザの疑問に対する答えに相応する箇所を特定する位置特定手段とを備え、前記位置特定手段により特定した箇所を応答の音声として合成音声により前記音声出力手段から出力させることを特徴とする。

請求項１の発明によれば、ユーザの操作に応じて合成音声によって再生出力したテキスト内容に対してユーザが疑問を発した際に、ユーザの疑問に対する応答内容を効率良く、また冗長性がなく提示することができる。

請求項２の発明では、請求項１の発明において、前記位置特定手段は、前記疑問対象抽出手段により抽出した前記疑問キーワードの文言情報に基づいて特定することを特徴とする。

請求項２の発明によれば、ユーザが発した疑問キーワードに対応する部分のみを文言情報で確実に抽出し、ユーザの問いに答えることが可能となる。

請求項３の発明では、請求項２の発明において、前記位置特定手段は、前記疑問キーワードの文言情報が単位を表す場合、当該疑問キーワードを検索して当該疑問キーワードの前にある数詞情報を特定することを特徴とする。

請求項３の発明によれば、単位を示す疑問キーワードであれば、それに数詞情報の検索を効率良く特定できる。

請求項４の発明では、請求項１乃至３の何れかの発明において、前記位置特定手段は、前記疑問対象抽出手段により抽出した前記疑問キーワードが複数あった場合、受け付けた音声中から答えに相応する箇所を特定するための補助キーワードを抽出し、当該補助キーワードに基づいて当該箇所を特定することを特徴とする。

請求項４の発明によれば、複数箇所に疑問キーワードがある場合でも、適切にユーザが求めるものを答えることが可能になる。

請求項５の発明では、請求項１乃至４の何れかの発明において、前記音声出力手段から再生出力するテキスト部分を格納する読上げ内容格納を備え、前記位置特定手段は、格納されたテキスト部分内から答えに相応する箇所を特定することを特徴とする。

請求項５の発明によれば、既に読み上げたテキスト内容を蓄積しておくことで、検索効率を高めユーザの応答待ち時間を少なくすることができ、しかもテキストの位置情報を示すチャプタを、読み上げたテキストに付与することが不要となる。

請求項６の発明では、請求項５の発明において、前記位置特定手段は、現在のテキスト出力位置から、最も近い答えに相応する箇所を特定することを特徴とする。

請求項６の発明によれば、ユーザは補助キーワードをたくさんいう必要がなく、疑問キーワードさえ含んでいれば検索をすることが可能となる。

請求項７の発明では、請求項１乃至６の何れかの発明において、前記疑問対象抽出手段により疑問キーワードが抽出された場合に、テキストの再生出力を停止させるテキスト読上げ手段を備えたことを特徴とする。

請求項７の発明によれば、疑問とは無関係な音声入力を受理せず、確実で効率の良い処理が可能となる。

請求項８の発明では、請求項７の発明において、前記音声出力手段において再生出力されたテキスト部分を格納するテキスト記憶手段を備え、該テキスト記憶手段に格納されたテキスト部分を参照し、該テキスト部分に続くテキストを前記音声出力手段より再生出力させることを特徴とする。

請求項８の発明によれば、読み上げるテキストの効率的な伝達が可能となる。

請求項９の発明では、請求項１乃至８の何れかの発明において、前記テキストが料理レシピであることを特徴とする。

請求項９の発明によれば、再生出力される料理レシピの内容に従って調理を行う場合にユーザが聞き逃しても、聞き逃した箇所を効率良く再生することができるため、調理に遅れを生じさせることがなく、調理器等に組み込むことでユーザの利便性が向上する。

本発明は、ユーザの操作に応じて合成音声によって再生出力したテキスト内容に対してユーザが疑問を発した際に、ユーザの疑問に対する応答内容を効率良く、また冗長性がなく提示することができるという効果がある。

以下本発明を実施形態により説明する。
（実施形態１）
本実施形態は、料理の作り方を敢えてくれるキッチンナビゲーションシステム（或いは、カーナビゲーションシステム・メール読上げ・またニュース読上げなど）のテキスト読上げをしてくれる音声対話システムに適用されるもので、図１に示すように構成される。

つまり本実施形態では、ユーザの音声を受け付ける音声受付手段、つまり音声入力インターフェースとしてマイクロホン１１を備えるとともに、テキストを合成音声で再生出力するための音声出力手段として、音声合成信号を生成する音声合成部１５とスピーカ１６とを備えている。

音声合成部１５は、本実施形態装置を組み込んだシステムのアプリケーション１７からユーザの操作に対応する音声合成命令を受け、この命令に基づいて読上げ内容格納部１４に格納しているレシピ情報等のユーザに提供するテキスト情報を音声合成信号に変換してスピーカ１６から合成音声により再生させるようになっている。この音声合成する際に辞書格納部１９から必要な単語情報（品詞情報やアクセント情報を含む）を参照する。

またマイクロホン１１から入力されたユーザの音声を認識するための音声認識部１２を備えており、この音声認識部１２には入力した音声を分析する音響分析部１２１と、ユーザ音声で形成される構文の文法を制約する文法格納部１２２と、ユーザ音声で形成される構文中の単語を解析するための辞書格納部１２３と、ユーザの疑問対象（以後、疑問キーワードという）を抽出する疑問対象抽出部（疑問対象抽出手段）１２４とから構成されている。

疑問抽出部１２４は、統計的に適合したものを出力するＨＭＭ（Hidden Markov Model）に基づく音声認識の原理に従うことができるもので、辞書格納部１２３の辞書とパターンマッチング（PatternMatching）により適合度を見て、ユーザの音声に含まれる疑問キーワードを抽出し、その疑問キーワードを位置特定部（位置特定手段）１３へ出力するようになっている。

位置特定部１３は、疑問キーワードを読上げ内容格納１４に格納されているテキスト情報から検索し、ユーザの疑問（質問する）内容を特定する処理を行う。

音声合成部１５に付設される停止位置記憶部１８は、ユーザの疑問音声の割り込みに対し、再生中のテキストの合成音声を停止し応答音声を出力した際の、再度停止した場所から合成音声を出力することを可能とするための記憶部である。

次に本実施形態の動作を図２のフローチャートに基づいて説明する。

まず、音声合成部１５がアプリケーション１７から音声合成命令を受信すると（ステップＳｌ）、音声合成部１５は読上げ内容格納１９からテキスト情報を読み込み、音声合成信号に変換し、スピーカ１６より合成音声として再生出力する（ステップＳ２）。この合成音声の出力中にマイクロホン１１を通して入ってきたユーザの音声が音声認識部１２で検知されると、この音声により形成された構文が疑問文か否かを音響分析部１２１並びに疑問対象抽出部１２４により判断する（ステップＳ３）。この判断方法としては、例えば入力音声のピッチ（基本周波数）パターンを観測し、語尾の値が上昇していれば疑問文と判断する方法がある。ここでの語尾とは、例えばユーザの音声の末尾５モーラ程度とする。このモーラとは、大凡、日本語の「カナ」に相応し、このモーラの値は音声認識部１２により得られる音声認識結果、すなわちテキスト情報から割り出すことが可能である。

また音声認識結果。すなわちテキスト情報そのものから判断するということが考えられる。例えば、「何」、「何だって」、「かな」といった疑問符と同時に生起する確率が高いとされる語尾を予め登録しておき、この登録情報を参照することで。ユーザ音声が疑問文かどうか判断することが可能である。また、これらを組み合わせて、入力されたユーザ音声が疑問文か否かを判別しても良い。

さてステップＳ３においてユーザの疑問音声を検知した場合、疑問対象抽出部１２４から音声合成部１５へ現在出力中の合成音声を停止させる指示を出力して停止状態にする（ステップＳ４）。つまり疑問対象抽出部１２４がテキスト読上げ停止手段として機能する。また既に合成音声の出力が終了している場合においても、停止状態を確認するなどの処理を施し、次の処理（ステップＳ５）に移行する。

尚、ここでは出力中の合成音声がマイクロホン１１を通じて音声認識される可能性があるため、バージイン（割り込み発話）機能を備えている方が望ましい。例えば、出力中の合成音声を解析し、この音響的特徴量は音声認識の対象外にするようキャンセル処理を施すことや、文法格納部１２２で予め想定されるテキスト以外は受理できないようにするといった方法がある。

さてステップＳ５では合成音声の停止位置を停止位置記憶部１７に格納する。この格納する情報とは時間に相応する情報（チャプタ）を指す。

停止位置の格納後、音声認識部１２の疑問相性抽出部１２４では文法格納部１２２に格納されている文法に従って、ユーザが疑問としている対象を抽出する（ステップＳ６）。この疑問キーワードの文言情報の抽出方法としては文法格納部１２２に図３のようなネットワーク文法を保持しておき。音声認識結果が何れかの形式で出力されるように制限をかけておく。これにより所定の部位の情報のみ（例えば、”ＱＵＡＮＴＩＴＹ”や“ＴＩＭＥ”に当たる情報）を抽出することが可能となる、尚、この文法ネットワークを取り入れたアルゴリズムは、例えば（鹿野他，「音声認識システム」，オーム社発行，ＩＳＢＮ４−２７４−１３２２８−５参照）で示される公知のものを実装している。

また、疑問キーワード（例えば、“ｃｃ（単位）’’）が複数存在した場合は、補助キーワード（例えば、“牛乳”）などをユーザに発声してもらうことで対応する。或いは、全検索結果をユーザに提示することでも良いとする。

上述の方法で、ユーザの疑問キーワード（図３の例では、“ｃｃ（シーシー）”。“グラム”、“分（フン、プン）’’）等の単位を示すキーワードを抽出した後、この情報と、読上げ内容格納１４内に格納されている情報とから、位置特定部１３はユーザが求める情報の位置を特定する（ステップＳ７）。ここで例を挙げると、音声合成命令に応じて「１００ｃｃの牛乳と２０グラムのバターを混ぜます」という合成音声が再生出力され、ユーザが何ｃｃの牛乳であったかを確認したいとし、「何ｃｃだって？」という質問の音声を発すると、ステップＳ６で“ｃｃ”の単語が抽出され、再生された合成音声内容からこの単語を検索する。

このとき、「何ｃｃ？」に対する答えが複数候補として挙がることが考えられるが、一つは直前の数詞情報を提示するという解がある。また数詞情報に関する候補を全てユーザに提示するとしても良い。得られた位置をもとに遡り（ステップＳ８）、ユーザが求める情報を含めた音声を出力させる（ステップＳ２に戻る）。尚、この遡る単位は、形態素、文節、文章が挙げられる。

そしてユーザの音声受付と疑問キーワードの検知がステップＳ３でなければ、システムでの待ち受け終了となるまで、ユーザの疑問音声を待ち受け（ステップＳ９）、アプリケーション１７から終了命令がきたら待ち受けを終了とする（ステップＳ９）。

尚アプリケーション１７から音声合成命令を受け取ると、音声合成部１５を動作させ、また音声認識部２４を待ち受け状態としたりする処理や、終了命令を受け取ると待ち受け状態を終了する処理など音声出力装置全体の信号処理を担うものとして演算処理部（図示せず）を備えているものとする。

本実施形態は、以上のような構成を有して音声対話処理を行うことにより、ユーザが、求める情報を効率的に再出力させることができる。
（実施形態２）
本実施形態は、図４に示すように、検索処理時間を短縮するために、読上げ内容格納部１４内のテキスト情報を音声合成したものを一時的に格納するためのテキスト記憶部２０と、位置特定部１３より特定したユーザが求める情報を文章としてユーザに伝達するための文法を格納している文法格納部２１と、この文法格納部２１と辞書格納部１９からの文法と語彙、また位置特定部１３から抽出した答えとなる単語とを用いて文章を組み立てる読上げ内容生成部２２とを設けた点で実施形態１の構成と相違している、尚その他の構成は基本的には実施形態１と同じであるので、同じ符号、名称を付す。

次に本実施形態の動作を図５に示すフローチャートにより説明する。

まずアプリケーション１７から音声合成部１５が音声合成命令を受信すると（ステップＳｌ）、読上げ内容格納部１４はテキスト情報のパケットを音声合成部１５へ送信する。このパケットとは単語、文節、文章といった単位で扱う。また同時に読上げ内容格納部１４からテキスト記憶部２０にもテキスト情報のパケットが送信され、このパケットはテキスト記憶部２０で逐次記憶される（ステップＳ２）。

音声合成部１５は受信したテキスト情報を音声合成信号に変換し、スピーカ１６より合成音声として再生出力する（ステップＳ３）。

この合成音声出力中は、読上げ内容格納部１４から出力内容のテキスト情報のパケットを音声合成部１５へ送信し続ける。そして、音声認識部１２において受け付けたユーザの音声から疑問キーワードが抽出されて疑問情報抽出部１２４から一時停止命令がきた場合（ステップＳ４）、パケット送信を一時停止する（ステップＳ５）。

次に、疑問情報抽出部１２４は疑問キーワードから文法格納部１２２に格納されている文法に従ってユーザが疑問としている対象を抽出する（ステップＳ６）。そしてユーザの音声から得られた疑問キーワードに基づいてテキスト記憶部２０に記憶したパケット内を検索してターゲット位置（以後“アンサーキーワード“という）を求める（ステップＳ７）。この方法として、例えば品詞情報を参照し、数詞である単語のみを抽出する方法を採用する。また、ユーザの質問形式を参考にすることもできる。例えば、「○○はいくつ？」とユーザが訊いた場合、答えは「数詞」となり、「○○はどこだって？」と訊いた場合は、答えは、「一般名詞−地名」といったように、質問形式により答えの品詞を制限することができ、この品詞に相応する部分を抽出することもできる。これにより、より確実な答えをユーザに返すことが可能となる。

ユーザに応答するためのテキストを生成する（ステップＳ８）。既に得られたアンサーキーワードと、疑問キーワードを組み
合わせる。例えば、アンサーキーワードが“１００”で、疑問キーワードが単位の“ｃｃ”である場合、読上げ内容生成部２２は文法格納部２１の文法に従って「１００ｃｃです」、または「○○は１００ｃｃです」といったようなテキストを生成する（ステップＳ８）。この生成されたテキストのパケットは、音声合成部１５に送信されて音声合成信号に変換され、スピーカ１６から合成音声によりユーザに応答音声が出力される（ステップＳ９）。この応答音声の出力後、読上げ内容格納部１４では更に音声合成部１５に送信するテキスト情報がないかを確認する（ステップＳ１０）。つまり、アプリケーション１７があるシナリオで生成すべき音声が終わっているかを確認することと同意である。そして音声合成するテキスト情報がまだある場合はステップＳ２に戻り、なければステップＳｌ１１に進み、ユーザからの質問を待ち受けるかどうかを判定する。つまりアプリケーション２１側から終了命令がなければ、ステップＳ２に戻り、終了命令があれば待ち受けを終了する。

本実施形態は以上のような構成を有して、音声対話処理を行うことにより、ユーザが求める情報を効率的に再出力させることができる。

ところで、本発明の音声再生装置は、比較的リアルタイム性の高い音声対話を対象としており、既に合成音声で読み上げたテキスト文をユーザの疑問に対応して検索し再出力させるようなっているが、既に読み上げたテキスト文のみならず、これから読み上げる予定の合成文章も検索対象とするとしても良い。この場合の手順としては、次のようになる。

まずユーザの発話を音声認識部１２で認識して、単語「○○」を求める。この求めた単語○○」が、今合成音声により読み上げているテキスト文全体の中にあるかを検索し、あればその位置を位置特定部１３で求め、この求めた位置からテキスト文を合成音声で読み上げる。例えば、天気情報を毎日自動的に音声で提供してくれる天気配信システムがあるとする。このシステムでは毎日天気情報を提供してくれるため、ユーザはこのシステムが出力する内容や順序を知っている。そして、該システムが、例えば「今日の大阪の天気は雨で降水確率は８０％です。気温は３０度で蒸し暑い天気となるでしょう。明日の天気は‥」というテキスト内容を読み上げるものとする。ここでユーザが、この天気情報の音声が始まったとき（“今日の…”）に、明日の情報を知りたくなったとする。そこで、ユーザは「明日の天気は？」と問い合わせるとすると、システム側では、“明日の天気は“というテキスト文を、読み上げたテキスト文から検索し、その位置が見つかれば、そこまで飛び音声出力を開始する。つまり、「明日の天気は、雨のち曇りで…」というように先の文章にジャンプする。このように、未読の読上げテキスト箇所も検索することで。システムはより柔軟な応対ができるものとなる。

実施形態１の構成図である。実施形態１の動作説明用フローチャートである。実施形態１に用いる文法ネットワークの説明図である。実施形態２の構成図である。実施形態２の動作説明用フローチャートである。

符号の説明

１１マイクロホン
１２音声認識部
１２１音響分析部
１２２文法格納部
１２３辞書格納部
１２４疑問対象抽出手段
１３位置特定手段
１４読上げ内容格納
１５音声合成部
１６スピーカ
１７アプリケーション
１８停止位置記憶部
１９辞書格納部

Claims

ユーザの操作に応じて予め備えられているテキストを合成音声で音声出力手段から再生出力させる音声再生装置において、
ユーザからの音声を受け付ける音声受付手段と、
該音声受付手段で受け付けた音声によって形成される構文が疑問文か否かを判定するとともに、疑問文の場合疑問を示す疑問キーワードを抽出する疑問対象抽出手段と、
前記音声合成部から出力済みの合成音声の内容に対して、前記疑問キーワードを検索してユーザの疑問に対する答えに相応する箇所を特定する位置特定手段とを備え、
前記位置特定手段により特定した箇所を応答の音声として合成音声により前記音声出力手段から出力させることを特徴とする音声再生装置。
前記位置特定手段は、前記疑問対象抽出手段により抽出した前記疑問キーワードの文言情報に基づいて特定することを特徴とする請求項１記載の音声再生装置。
前記位置特定手段は、前記疑問キーワードの文言情報が単位を表す場合、当該疑問キーワードを検索して当該疑問キーワードの前にある数詞情報を特定することを特徴とする請求項２記載の音声再生装置。
前記位置特定手段は、前記疑問対象抽出手段により抽出した前記疑問キーワードが複数あった場合、受け付けた音声中から答えに相応する箇所を特定するための補助キーワードを抽出し、当該補助キーワードに基づいて当該箇所を特定することを特徴とする請求項１乃至３の何れか記載の音声再生装置。
前記音声出力手段から再生出力するテキスト部分を格納する読上げ内容格納を備え、前記位置特定手段は、格納されたテキスト部分内から答えに相応する箇所を特定することを特徴とする請求項１乃至４の何れか記載の音声再生装置。
前記位置特定手段は、現在のテキスト出力位置から、最も近い答えに相応する箇所を特定することを特徴とする請求項５記載の音声再生装置。
前記疑問対象抽出手段により疑問キーワードが抽出された場合に、テキストの再生出力を停止させるテキスト読上げ手段を備えたことを特徴とする音声再生装置
前記音声出力手段において再生出力されたテキスト部分を格納するテキスト記憶手段を備え、該テキスト記憶手段に格納されたテキスト部分を参照し、該テキスト部分に続くテキストを前記音声出力手段より再生出力させることを特徴とする請求項７記載の音声再生装置。
前記テキストが料理レシピであることを特徴とする請求項１乃至８の何れか記載の記載の音声再生装置。