JP2015038526A

JP2015038526A - 音声処理装置、及び音声処理方法

Info

Publication number: JP2015038526A
Application number: JP2011080365A
Authority: JP
Inventors: 千加志杉浦; Chikashi Sugiura; 浩司藤村; Koji Fujimura; 聡典河村; Akinori Kawamura; 隆須藤; Takashi Sudo
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2015-02-26
Also published as: US20120253804A1

Abstract

【課題】操作負担を軽減する。【解決手段】実施形態の音声処理装置は、記憶手段と、変換手段と、文字列変換手段と、類似度算出手段と、出力手段と、を備える。記憶手段は、第１の文字列情報と、第１の音素シンボルと、を対応付けて記憶する。変換手段は、入力された音声から、第２の音素シンボルに変換する。文字列変換手段は、第２の音素シンボルから、第２の文字列情報に変換する。類似度算出手段は、変換手段により変換された前記第２の音素シンボル、及び文字列変換手段により変換された第２の文字列情報のうちいずれか１つ以上を用いて、入力された音声と、記憶手段に記憶された第１の文字列情報の一部と、の間の類似度を算出する。出力手段は、類似度に基づいて、第１の文字列情報を出力する。【選択図】図３

Description

本発明の実施形態は、音声処理装置、及び音声処理方法に関する。

近年、キーボードやマウス等の入力装置を持たないタッチパネルによるタッチ操作を基本としたスマートフォンやタブレット端末等の情報処理装置の出荷が増えてきている。かかる情報処理装置は、タッチ操作で文字列を入力する際、当該文字列を含んだ予測候補を提示する予測変換技術が提案されている。

一方、文字列の入力手法としては、情報処理装置に備えられたマイクロフォン等を用いて、入力された音声に対して音声認識を行い、文字列を生成する技術が提案されている。この音声認識を用いた文字列の入力手法に、予測候補を提示する予測変換技術を適用することも考えられる。

特開２００１−３４３９９４号公報

しかしながら、予測変換技術を用いた場合、予め記憶された文字列の先頭からの一部が、入力された音声から変換された文字列と完全一致する必要があるが、音声認識で音声から文字列に変換する際に誤認識等が生じやすい。このため、音声認識に予測変換技術を適用するのは難しい。

本発明は、上記に鑑みてなされたものであって、予測変換技術を音声認識に適用可能にする音声処理装置、及び音声処理方法を提供することを目的とする。

実施形態の音声処理装置は、記憶手段と、変換手段と、文字列変換手段と、類似度算出手段と、出力手段と、を備える。記憶手段は、第１の文字列情報と、第１の音素シンボルと、を対応付けて記憶する。変換手段は、入力された音声から、第２の音素シンボルに変換する。文字列変換手段は、第２の音素シンボルから、第２の文字列情報に変換する。類似度算出手段は、変換手段により変換された前記第２の音素シンボル、及び文字列変換手段により変換された第２の文字列情報のうちいずれか１つ以上を用いて、入力された音声と、記憶手段に記憶された第１の文字列情報の一部と、の間の類似度を算出する。出力手段は、類似度に基づいて、第１の文字列情報を出力する。

図１は、実施形態にかかる情報処理装置の外観を模式的に示す図である。図２は、実施形態にかかる情報処理装置のハードウェア構成の一例を示す図である。図３は、実施形態にかかる情報処理装置で実現されるソフトウェア構成を示した図である。図４は、実施形態にかかる情報処理装置が表示する画面の第１の例を示した図である。図５は、実施形態にかかる情報処理装置が表示する画面の第２の例を示した図である。図６は、実施形態にかかる情報処理装置が表示する画面の第３の例を示した図である。図７は、実施形態にかかる情報処理装置が表示する画面の第４の例を示した図である。図８は、実施形態にかかる情報処理装置における、翻訳対象となる文字列データの選択までの処理の手順を示すフローチャートである。

図１は、本実施形態にかかる情報処理装置の外観を模式的に示す図である。この情報処理装置１００は、表示画面を備えた音声処理装置とする。そして、当該情報処理装置１００は、例えばスレート端末（タブレット端末）や、音声認識に基づく文書入力装置等として実現されている。なお、ここでは、Ｘ軸及びＹ軸の矢印方向を正方向としている（以下同様）。

情報処理装置１００は、薄い箱状の筐体Ｂを備え、この筐体Ｂの上面に表示部１１０が配置されている。表示部１１０は、ユーザによってタッチされた表示画面上の位置を検知するためのタブレット（図２、タブレット２２１参照）を備えている。さらに情報処理装置１００は、ユーザが発話した音声を入力するためのマイクロフォン１０１と、ユーザに対して音声を出力するためのスピーカ１０２と、を備えている。なお、情報処理装置１００は、図１の例に限らず、筐体Ｂの上面に各種ボタンスイッチを配置する形態としてもよい。

図２は、情報処理装置１００のハードウェア構成の一例を示す図である。同図に示すように、情報処理装置１００は、上述の表示部１１０、マイクロフォン１０１、及びスピーカ１０２に加え、ＣＰＵ２１２、システムコントローラ２１３、グラフィックスコントローラ２１４、タブレットコントローラ２１５、加速度センサ２１６、不揮発性メモリ２１７及びＲＡＭ２１８等を備えている。

表示部１１０は、タブレット２２１と、ＬＣＤや有機ＥＬ等のディスプレイ２２２とから構成されている。タブレット２２１は、例えば、ディスプレイ２２２の表示画面上に配置された透明の座標検出装置から構成されている。このタブレット２２１は、上述したように、ユーザの指によってタッチされた表示画面上の位置（タッチ位置）を検知することができる。このタブレット２２１の働きにより、ディスプレイ２２２の表示画面はいわゆるタッチスクリーンとして機能する。

ＣＰＵ２１２は、情報処理装置１００の動作を制御するプロセッサであり、システムコントローラ２１３を介して情報処理装置１００の各コンポーネントを制御する。ＣＰＵ２１２は、不揮発性メモリ２１７からＲＡＭ２１８にロードされる、オペレーティングシステム、各種アプリケーションプログラムを実行することで、後述する各機能部（図３参照）を実現する。ＲＡＭ２１８は、情報処理装置１００のメインメモリとして機能する。

システムコントローラ２１３には、不揮発性メモリ２１７及びＲＡＭ２１８をアクセス制御するメモリコントローラも内蔵されている。また、システムコントローラ２１３は、グラフィックスコントローラ２１４との通信を実行する機能も有している。

グラフィックスコントローラ２１４は、情報処理装置１００のディスプレイモニタとして使用されるディスプレイ２２２を制御する表示コントローラである。タブレットコントローラ２１５は、タブレット２２１を制御し、ユーザによってタッチされたディスプレイ２２２の表示画面上の位置を示す座標データをタブレット２２１から取得する。

加速度センサ２１６は、図１に示す軸方向（Ｘ、Ｙ方向）や、これに各軸周りの回転方向の検出を加えた加速度センサ等であって、情報処理装置１００に対する外部からの加速度の向きと大きさを検出し、ＣＰＵ２１２に出力する。具体的に、加速度センサ２１６は、加速度を検出した軸、向き（回転の場合、回転角度）、及び大きさを含んだ加速度検出信号をＣＰＵ２１２に出力する。なお、角速度（回転角度）検出のためのジャイロセンサを、加速度センサ２１６に統合する形態としてもよい。

次に、情報処理装置１００のＣＰＵ２１２で音声処理プログラムが実行されることで実現されるソフトウェア構成について説明する。図３は、情報処理装置１００で実現されるソフトウェア構成を示した図である。図３に示すように情報処理装置１００は、テキスト情報格納部３０１と、音素列変換部３０２と、文字列変換部３０３と、文字列類似度算出部３０４と、音素列類似度算出部３０５と、類似度算出部３０６と、バッファ部３０７と、優先度算出部３０８と、条件情報取得部３０９と、出力部３１０と、選択部３１１と、を備える。

テキスト情報格納部３０１は、図２の不揮発性メモリ２１７内に設けられ、複数の文字列データと、これら文字列データに対応する音素シンボルのシンボル列と、を対応付けて記憶する。例えば、テキスト情報格納部３０１は、文字列データ「こんにちは」と、音素列データ「ＫｏｎＮｉｃｈｉｗａ」（音素のイメージ）と、を対応付けて記憶する。

さらに、テキスト情報格納部３０１は、テキスト毎にヒット率やこれに準じる値と対応付けて記憶してよい。本実施形態にかかる情報処理装置１００においては、テキスト情報格納部３０１に記憶された文字列データが音声認識結果と一致した場合や、後述する選択部３１１で選択された場合をヒットしたと称し、当該ヒットの割合をヒット率とする。本実施形態では、テキスト情報格納部３０１に格納する文字列データを、文単位とした。これにより、選択候補として文字単位で提示されることで、ユーザは文全体を発話せずとも、処理対象となる文を容易に選択、特定することが可能となった。また、文節単位だとユーザの選択操作が頻繁になるが、文単位のため選択際の負担を軽減できる。

このように、本実施形態にかかるテキスト情報格納部３０１は、文字列データ毎に音素のシンボル列を保持することとした。これにより、情報処理装置１００では、類似度の判定をシンボルレベルで可能になった。したがって、ユーザの言い間違いや誤認識で文節の切れ目がおかしくなった場合、又は音声から変換して生成された入力文字列データに間違った表記が含まれていた場合でも、ユーザが意図した選択候補が表示される可能性を向上させることができる。

また、本実施形態にかかる情報処理装置１００では、テキスト情報格納部３０１に記憶された文字列データがヒットした場合に、ヒット対象としてマイクロフォン１０１から入力された音声から変換された音素列データや文字列データを、ヒットした（テキスト情報格納部３０１に記憶された）文字列データと対応付けて格納してもよい。これ以降、格納された音素列や文字列を比較に用いることで、音声認識の精度を向上させることができる。

さらに、本実施形態にかかる情報処理装置１００では、テキスト情報格納部３０１に記憶された文字列データがヒットした場合に、後述する条件情報取得部３０９で取得された、日付、時間帯、天候、現在の場所などの外部の環境情報、音声認識の使用目的、使用者のプロフィールなどの条件情報を、当該文字列データと対応付けて記憶しても良い。

また、情報処理装置１００では、ヒット率を算出する際に、ヒット回数の全体に対する割合でヒット率を算出するのではなく、上記条件情報を用いて、条件付き確率を算出し、この条件付き確率をヒット率として用いても良い。

音素列変換部３０２は、マイクロフォン１０１から入力された音声信号から、当該音声の音響的な特徴量を有する音素シンボル（以下、音素）に変換する。本実施形態にかかる音素列変換部３０２は、入力された音声信号からＭＦＣＣ(Mel-Frequency Cepstral Coefficients)などの音響特徴量を算出し、ＨＭＭ（Hidden Markov Model 隠れマルコフモデル）などの統計的手法を用いて、音素シンボルに変換するが、他の手法を用いても良い。

文字列変換部３０３は、音素列変換部３０２に変換された音素を、音声で発せられた内容を自然言語として示した入力文字列データに変換する。

文字列類似度算出部３０４は、文字列変換部３０３により変換された入力文字列データと、テキスト情報格納部３０１に記憶された文字列データの一部である部分文字列データと、の類似度を示した文字列類似度を算出する。本実施形態にかかる文字列類似度算出部３０４は、文字列データの一部として、当該文字列データのうち、先頭文字からの一部である部分文字列データを、文字列類似度の算出対象として用いる。

音素列類似度算出部３０５は、音素列変換部３０２により変換された音素のシンボル列と、テキスト情報格納部３０１に記憶された文字列データと対応付けられた音素のシンボル列の一部である部分音素シンボル列と、の音素の類似度を示した音素類似度を算出する。本実施形態にかかる音素列類似度算出部３０５は、部分音素シンボル列として、テキスト情報格納部３０１に記憶された音素のシンボル列のうち、先頭文字からの一部である部分音素シンボル列データを、音素類似度の算出対象として用いる。

類似度算出部３０６は、入力された音声と、テキスト情報格納部３０１に記憶された各文字列データとの間の類似度を算出する。本実施形態にかかる類似度算出部３０６は、文字列類似度と、音素類似度と、の両者の重み付け和により算出する。なお、本実施形態にかかる類似度算出部３０６において、重み付け和の算出に用いる、文字列類似度及び音素類似度のうち、いずれか一方の重みが‘０’の場合、他方のみを用いて類似度を算出することになる。このように文字列類似度及び音素類似度のうち、いずれか一方のみ用いても良い。

バッファ部３０７は、ＲＡＭ２１８内に設けられ、類似度算出部３０６により算出された類似度を、当該類似度の算出対象となった文字列データの、テキスト情報格納部３０１の格納先を示す格納ＩＤと対応付けて、一時的に保持する。

条件情報取得部３０９は、本日の日付、時間帯、天候、現在の場所などの環境情報、音声認識の使用目的、及びユーザのプロフィールなどの条件のうち少なくとも１つ以上を取得する。

優先度算出部３０８は、バッファ部３０７に保持された類似度に基づいて、換言すれば音素類似度及び文字列類似度のうちいずれか１つ以上に基づいて、文字列データ毎の優先度を算出する。本実施形態にかかる優先度算出部３０８は、類似度のみならず、当該文字列データと対応付けられたヒット率とを組み合わせて、優先度を算出する。例えば、類似度が一定の閾値以上、且つヒット数が高い場合に、優先度が高くなる算出手法を用いる。

さらに、優先度算出部３０８は、条件情報取得部３０９により取得された日付、時間帯、天候、現在の場所、音声認識の使用目的、及びユーザのプロフィールなどの条件のうち、少なくとも１つ以上を参照し、これら条件と一致する文字列を含む文字列データの優先度が高くなるよう算出する。

そして、優先度算出部３０８は、算出された優先度に基づいて、入力された音声に類似する部分を含んでいる文字列データを、選択候補として抽出する。本実施形態にかかる優先度算出部３０８は、算出された優先度が、所定の閾値以上の場合に、当該優先度の算出に用いた類似度とバッファ部３０７で対応付けられている格納ＩＤで識別される文字列データを、選択候補として抽出する。なお、優先度に基づいて文字列データを選択候補として抽出する際の条件は、所定の閾値以上の場合に抽出することに制限するものではなく、例えば、優先度が高い順に上位ｎ個の文字列データを抽出しても良い。さらに所定の閾値と上位ｎとを組み合わせ、所定の閾値以下でも上位ｎ個については抽出するとしても良い。

なお、本実施形態では、類似度に対して、ヒット率及び各種条件のうちいずれか１つ以上を組み合わせて算出したが、このような算出手法に制限するものではない。例えば、バッファ部３０７に格納されている類似度が大きい順に優先度として算出しても良い。他の例としては、バッファ部３０７に格納されている類似度がある一定の閾値以上の場合に、当該類似度に対応する文字列データを、テキスト情報格納部３０１から参照し、当該文字列データと対応付けられているヒット率を優先度としても良い。また、ヒット率は、条件付き確率としても良い。

出力部３１０は、優先度の高い順に、テキスト情報格納部３０１に記憶された文字列データを、選択候補として、表示部１１０に出力する。また、出力部３１０は、表示部１１０に出力するのではなく、（図示しない）有線通信手段や無線通信手段（図示せず）などの通信手段を介して、外部装置に出力しても良い。

また、出力部３１０は、全ての文字列データの類似度が、所定の閾値を超えていない場合、文字列変換部３０３に変換された入力文字列データを、選択候補として、表示部１１０に出力する。

また、出力部３１０は、文字列データを選択候補として出力する際に、優先度に応じて、文字列データを目立ちやすい表示色にしたり、目立ちやすい文字サイズにしたり、目立ちやすいフォントにしたり、目立ち易やすい位置に表示したり、目立つ動きなどで表示しても良い。

選択部３１１は、出力部３１０で出力された文字列データを選択する。本実施形態にかかる選択部３１１は、タブレット２２１を介してユーザに指示された文字列データを、利用対象として選択する。なお、文字列データの選択手法としては、タブレット２２１を介した指示に制限するものではなく、例えば、ハードキー等の押下で選択を受けつけてもよいし、ソフトウェアキー等で選択を受けつけてもよい。

さらに、選択部３１１は、表示部１１０に文字列データが表示された状態で、ユーザからの指示が無く所定の時間を経過した場合、優先度が一番高い文字列データを自動的に選択してもよい。

また、表示部１１０に文字列データが表示された状態で、ユーザからの指示が無く所定の時間を経過した場合、情報処理装置１００は、発話意図の文字列データが無いとみなして、再び音声入力をやり直す手順に遷移しても良い。さらに、表示部１１０に文字列データが表示された状態で、ユーザからの指示が無く所定の時間を経過した場合、自動で処理を実行する前に、使用者に対して許可を促す表示をしても良い。

上述した構成を備えた情報処理装置１００は、外国人への店頭販売の同時翻訳などに用いても良い。つまり、情報処理装置１００のテキスト情報格納部３０１は、日本語の文字列データと、当該日本語の文字列データに対応する外国語の文字列データを対応付けて記憶しても良い。このように利用用途が限定されている場合、発声する音声がある程度決まってくるので、認識率の向上と、処理速度の向上と、を図ることができる。

次に、情報処理装置１００の画面例について説明する。図４は、音声「い」が入力された場合に、情報処理装置１００が表示する画面例を示した図である。図４に示すように、ユーザが音声「い」を発した場合、情報処理装置１００は、音声「い」と音素及び文字列のうちいずれか一方が類似する文字列データを、候補リストとして表示部１１０に表示する。

図４に示すように、表示部１１０は、候補リストとして、「いらっしゃいませ」、「いつもご利用ありがとうございます。」、「いらっしゃいませ。何をお探しですか？」、「いらっしゃいませ。分からないことがあれば聞いてください。」、「いろいろとございます。」、「水曜日の入荷となります。」、「小さいサイズもございます。」、「はい、かしこまりました。」、及び「比較的お安いお値段となっております。」を表示する。

この段階では、選択するよりも発話し続ける方が楽なため、ユーザは発話し続けるものとする。なお、発話は、「い」から始まっているが、語頭は検索に曖昧性を持たせるので、「い」以外から始まる候補（ただし語頭に隣接する音素として母音「i」を含む候補）も表示される。文頭が「い」以外から始まる候補としては、例えば、文頭が“い”列（き、し、ち、に、ひ、み、り、…、）で始まる文字列がある。その他に２文字目が“い”であっても良い。これにより表示部１１０には、「水曜日の入荷となります」４０１、「小さいサイズもございます」４０２、及び「比較的お安いお値段となっております。」４０３が表示される。なお、図４に示す例では、優先度として、過去に発話された頻度順を用いた例とする。なお、頻度順はテキスト情報格納部３０１にいて文字列データと対応付けて記憶されていたものとする。

そのあと、ユーザによる発話が継続して行われたものとする。図５は、音声「いらっしゃ」が入力された場合に、情報処理装置１００が表示する画面例を示した図である。図５に示すように、ユーザが音声「いらっしゃ」を発した場合に、情報処理装置１００は、音声「いらっしゃ」と音素及び文字列のうちいずれか一方が類似する文字列データが、候補リストとして表示部１１０に表示する。

図５に示すように、この段階で、表示部１１０が表示する候補リストは、「いらっしゃ」が含まれる文字列データに絞り込まれる。この程度まで候補が絞られた場合に、ユーザは発話するのを停止して、図５に示す文字列データの指示を行っても良いし、発話を継続しても良い。文字列データの指示を行った場合には、選択部３１１は、ユーザが指示した文字列データを、翻訳対象の文字列データとして選択する。

ユーザがさらに発話を継続した場合、例えば、ユーザが「いらっしゃいませ。な…」まで発話した場合、表示部１１０が候補リストとして、文字列データ「いらっしゃいませ。何をお探しですか？」のみを表示する。この段階でユーザは当該文字列の選択を行っても良いし、最後まで発話しても良い。

また、本実施形態にかかる情報処理装置１００は、ユーザが発話した音声と、テキスト情報格納部３０１に格納されている文字列データが一致する必要はなく、類似していれば候補リストとして表示される。図６は、音声「いらっしゃいませ。お探しのものがあれば…」が入力された場合に、情報処理装置１００が表示する画面例を示した図である。図５に示すように、ユーザが音声「いらっしゃいませ。お探しのものがあれば…」を発した場合に、情報処理装置１００は、音声「いらっしゃ」と音素及び文字列のうちいずれか一方が類似する文字列データであって、テキスト情報格納部３０１に記憶されている「いらっしゃいませ。何をお探しですか？」を、候補リストとして表示部１１０に表示する。

さらに、本実施形態にかかる情報処理装置１００は、ユーザが発話した音声と、テキスト情報格納部３０１に格納されている文字列データが一致する必要はなく、類似している文字列データもない場合、入力された音声に基づく音素のシンボル列から変換された文字列データを表示する。図７は、テキスト情報格納部３０１に記憶された文字列データに候補が存在しない場合に、情報処理装置１００が表示する画面例を示した図である。図７に示すように、ユーザが音声「いらっしゃいませ。ご用件があれば気軽にお呼びください」を発した場合に、情報処理装置１００は、テキスト情報格納部３０１に記憶されている文字列に候補が存在しないため、入力した音声の音素のシンボル列から変換された文字列データ「いらっしゃいませ。ご用件があれば気軽にお呼びください」を、候補リストとして表示部１１０に表示する。なお、情報処理装置１００では、当該文字列がユーザに選択された場合に機械翻訳等を用いて、外国語の文字列データを生成する。

そして、文字列データ「いらっしゃいませ。ご用件があれば気軽にお呼びください」がユーザに選択された場合に、選択部３１１が、当該文字列データを、文字列データに変換する前の音素のシンボル列と対応付けて、テキスト情報格納部３０１に記憶する。これにより、以降、ユーザが「いらっしゃいませ。ご用件があれば気軽にお呼びください」と発話する際に、最後まで発話する前に、情報処理装置１００は、選択候補として、表示部１１０に表示することが可能となる。

そして、本実施形態にかかる情報処理装置１００は、選択された日本語の文字列データと対応付けられている外国語の文字列データ、又は選択された日本語の文字列データに基づいて機械翻訳等により生成された外国語の文字列データを、音声合成した上で、スピーカ１０２から出力する。

次に、本実施形態にかかる情報処理装置１００における、翻訳対象となる文字列データの選択までの処理について説明する。図８は、本実施形態にかかる情報処理装置１００における上述した処理の手順を示すフローチャートである。

まず、情報処理装置１００の音素列変換部３０２が、入力された音声信号を、音素に変換する（ステップＳ８０１）。

次に、文字列変換部３０３が、変換された音素のシンボル列を、自然言語として示した入力文字列データに変換する（ステップＳ８０２）。

次に、文字列類似度算出部３０４が、入力文字列データと、テキスト情報格納部３０１に格納されている文字列データの一部である部分文字列データと、の間の文字列類似度を算出する（ステップＳ８０３）。文字列データの一部である部分文字列データとは、例えば、入力文字列データが１文字の場合、テキスト情報格納部３０１に格納されている文字列データの先頭１、２文字が部分文字列データに該当する。入力文字列データに類似する部分文字列データを含んだ文字列データが選択候補となる。なお、入力文字列データの文字列の数が増加するに従って、比較対象となる部分文字列データの数も増加する。

その後、音素列類似度算出部３０５は、音素列変換部３０２により変換された音素のシンボル列と、テキスト情報格納部３０１に記憶された文字列データと対応付けられた音素のシンボル列の一部である部分音素シンボル列と、の音素の類似度を示した音素類似度を算出する（ステップＳ８０４）。部分音素シンボル列データは、テキスト情報格納部３０１に記憶された音素シンボル列のうち、入力された音声の音素のシンボル列に対応する部分とする。

次に、類似度算出部３０６は、文字列類似度及び音素類似度の重み付け和に基づいて、入力された音声と、テキスト情報格納部３０１に記憶された各文字列データとの間の類似度を算出する（ステップＳ８０５）。そして、算出された類似度は、格納ＩＤと対応付けられて、バッファ部３０７に一時的に格納される。一方、条件情報取得部３０９が、本日の日付等の条件を取得しておく。

そして、優先度算出部３０８は、バッファ部３０７に保持された類似度及び取得された条件等に基づいて、文字列データ毎の優先度を算出する（ステップＳ８０６）。

その後、優先度算出部３０８は、算出された優先度に基づいて、入力された音声に類似する部分を含んでいる文字列データを、選択候補として抽出する（ステップＳ８０７）。

そして、出力部３１０は、抽出された文字列データが存在するか否かを判定する（ステップＳ８０８）。抽出された文字列データが存在する場合（ステップＳ８０８：Ｙｅｓ）、出力部３１０は、所定の順序で文字列データを、選択候補として表示部１１０に表示する（ステップＳ８０９）。所定の順序としては、優先度順や、過去に発話された頻度順などとする。この順序は、ユーザが自由に設定可能とする。一方、抽出された文字列データが存在しない場合（ステップＳ８０８：Ｎｏ）、出力部３１０は、文字列変換部３０３により変換された入力文字列データを、選択候補として表示部１１０に表示する（ステップＳ８１０）。このように、テキスト情報格納部３０１に候補リストとなる文字列データがある場合には当該文字列データが表示される一方、テキスト情報格納部３０１に候補リストとなる文字列データがない場合にはユーザの音声から変換された入力文字列データが表示されることになる。

その後、選択部３１１が、ユーザにより選択候補である文字列データ又は入力文字列データが選択されたか否かを判定する（ステップＳ８１１）。選択されていないと判定した場合（ステップＳ８１１：Ｎｏ）、情報処理装置１００がマイクロフォン１０１から音声を入力されたか否かを判定する（ステップＳ８１２）。音声が入力されたと判定した場合（ステップＳ８１２：Ｙｅｓ）、再びステップＳ８０１から処理を行う。音声が入力されていないと判定した場合（ステップＳ８１２：Ｎｏ）、選択部３１１が、再び選択候補が選択されたか否かを判定する（ステップＳ８１１）。選択候補が選択された場合（ステップＳ８１１：Ｙｅｓ）、翻訳対象となる文字列データが決定したものとして処理を終了する。

従来の音声認識において、処理の対象となる文字列データ全体をユーザが音声で発話する必要があったが、本実施形態にかかる情報処理装置１００では、発話した音声と類似する部分を含んだ文字列データを選択候補として提示することで、ユーザは全て発話する必要がなくなり、ユーザの負担を軽減することが可能となった。さらには、全て発話する必要がなくなったため、ノイズ環境でのご認識を抑止することが可能となった。

また、本実施形態にかかる情報処理装置１００は、選択候補として各文節を提示するのではなく、文全体を候補として表示することした。これにより、文節単位で逐次選択する必要がないため、操作負担を軽減できる。

さらに、情報処理装置１００は、音素列変換部３０２により変換された文字列データを用いて類似判断する際、語頭の検索条件を緩和することとした。これは、語頭はノイズによる誤認識が多いためである。当該処理を行うことで、ユーザが所望する文字列データが選択候補から除外されるのを抑止できる。

上述した実施形態にかかる情報処理装置１００では、候補リストを表示する際に、音声認識の途中で予め記憶されている文字列データと比較して類似度が高いもの又は利用頻度が高いものを優先的に表示することとした。これにより、操作性を向上させることができる。

また、上述した実施形態にかかる情報処理装置１００では、上述した音素及び文字列の類似度を判定することで、生成された文書データが異なっていても、発話意図が類似する文字列データを選択候補として抽出可能とした。さらには、多少の言い間違いや誤認識を吸収できる。

ところで、従来技術においては、音声認識を行う際、音声発話後、音声認識結果が出力されるまで、発話者は待機する必要があった。一方で、定型化された、特定の文字列データの入力を複数回行いたい場合、同じ発話を複数回繰り返す必要があり、負担が生じていた。

これに対し、上述した実施形態にかかる情報処理装置１００は、入力中の音声を音素列や文字列に変換しつつ逐次的に、予め用意しておいた文字列データ又は過去に発話された文字列データとの類似度を算出し、優先度が高い順に表示部１１０に表示することとした。このように、発話者がリアルタイムに文字列データの選択を可能としたことで、ある程度定型化された文字列を複数回入力する場合の負担を軽減できる。また、周囲の雑音の影響や発話者の発話癖（発話前の舌打ちなど）による誤認識がある場合でも、類似度に基づいて優先度が高い順に候補となる文字列データが表示され、当該候補からユーザが意図した文字列データを選択すればよいので、言い直しやテキスト編集などの手間を省くことができる。特にある程度定型化した複数回繰り返し発話される音声を入力する場合、最後まで発話せずとも選択操作のみで音声入力の目的を果たすことが可能となる。

本実施形態の情報処理装置１００で実行される音声処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、本実施形態の情報処理装置１００で実行される音声処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の情報処理装置１００で実行される音声処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

情報処理装置１００で実行される音声処理プログラムは、上述した各部（音素列変換部３０２、文字列変換部３０３、文字列類似度算出部３０４、音素列類似度算出部３０５、類似度算出部３０６、優先度算出部３０８、条件情報取得部３０９、出力部３１０、及び選択部３１１）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記ＲＯＭから音声処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、音素列変換部３０２、文字列変換部３０３、文字列類似度算出部３０４、音素列類似度算出部３０５、類似度算出部３０６、優先度算出部３０８、条件情報取得部３０９、出力部３１０、及び選択部３１１が主記憶装置上に生成されるようになっている。

なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。

１００…情報処理装置、１０１マイクロフォン、１０２…スピーカ、１１０…表示部、１１１…タブレット、１１２…ディスプレイ、３０１…テキスト情報格納部、３０２…音素列変換部、３０３…文字列変換部、３０４…文字列類似度算出部、３０５…音素列類似度算出部、３０６…類似度算出部、３０７…バッファ部、３０８…優先度算出部、３０９…条件情報取得部、３１０…出力部、３１１…選択部

実施形態の音声処理装置は、記憶手段と、変換手段と、音素類似度算出手段と、出力手段と、を備える。記憶手段は、第１の文字列情報と、第１の音素シンボルと、を対応付けて記憶する。変換手段は、入力された音声から、第２の音素シンボルに変換する。文字列変換手段は、第２の音素シンボルから、第２の文字列情報に変換する。音素類似度算出手段は、変換手段により変換された第２の音素シンボルと、記憶手段に記憶された第１の音素シンボルの一部である部分音素シンボルと、の語頭又は語頭に隣接する音素に含まれる母音に基づいて、音素の類似度を示した音素類似度を算出する。出力手段は、音素類似度算出手段により算出された音素類似度に基づいて、第１の文字列情報を出力する。

Claims

第１の文字列情報と、当該第１の文字列情報に対応する第１の音素シンボルと、を対応付けて記憶する記憶手段と、
入力された音声から、第２の音素シンボルに変換する変換手段と、
前記第２の音素シンボルから、前記音声の内容を自然言語として示した第２の文字列情報に変換する文字列変換手段と、
前記変換手段により変換された前記第２の音素シンボル、及び前記文字列変換手段により変換された前記第２の文字列情報のうちいずれか１つ以上を用いて、入力された音声と、前記記憶手段に記憶された前記第１の文字列情報の一部と、の間の類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された前記類似度に基づいて、前記第１の文字列情報を出力する出力手段と、
を備える音声処理装置。
前記類似度算出手段は、前記変換手段により変換された前記第２の音素シンボルと、前記記憶手段に記憶された前記第１の音素シンボルの一部である部分音素シンボルと、の類似度を示した音素類似度を算出する音素類似度算出手段と、前記文字列変換手段により変換された前記第２の文字列情報と、前記記憶手段に記憶された前記第１の文字列情報の一部である部分文字列情報と、の類似度を示した文字列類似度を算出する文字列類似度算出手段と、のうちいずれか１つ以上を有し、
前記出力手段は、前記音素類似度及び前記文字列類似度のうちいずれか１つ以上に基づいて、前記第１の文字列情報を出力する、
請求項１に記載の音声処理装置。
前記音素類似度算出手段は、前記第２の音素シンボルと、前記第１の音素シンボルのうち先頭からの一部である部分音素シンボルと、の音素類似度を算出し、
前記文字列類似度算出手段は、前記第２の文字列情報と、前記第１の文字列情報のうち先頭からの一部である部分文字列情報と、の文字列類似度を算出する、
請求項２に記載の音声処理装置。
前記出力手段は、前記抽出手段が入力した音声に類似する部分を含んでいる前記第１の文字列情報がない場合に、前記第２の文字列情報を出力する、
請求項１乃至３のいずれか１つに記載の音声処理装置。
前記出力手段は、前記音素類似度及び前記文字列類似度のいずれか１つ以上が高い順に、前記第１の文字列情報を出力する、
請求項１乃至４のいずれか１つに記載の音声処理装置。
本日の日付、時間帯、天候、現在の場所、及びユーザの属性情報のうちいずれか１つ以上の条件情報を取得する取得手段をさらに備え、
前記出力手段は、さらに、前記取得手段が取得する前記条件情報に基づいて順序を定め又は抽出した前記第１の文字列情報を出力する、
請求項１乃至５のいずれか１つに記載の音声処理装置。
音声処理装置で実行される音声処理方法であって、
前記音声処理装置は、前記第１の文字列情報と、当該第１の文字列情報に対応する第１の音素シンボルと、を対応付けて記憶する記憶手段を備え、
変換手段が、入力された音声から、第２の音素シンボルに変換する変換ステップと、
文字列変換手段が、前記第２の音素シンボルから、前記音声の内容を自然言語として示した第２の文字列情報に変換する文字列変換ステップと、
類似度算出手段は、前記変換ステップにより変換された前記第２の音素シンボル、及び前記文字列変換ステップにより変換された前記第２の文字列情報のうちいずれか１つ以上を用いて、入力された音声と、前記記憶手段に記憶された前記第１の文字列情報の一部と、の間の類似度を算出する類似度算出ステップと、
出力手段が、前記類似度算出ステップにより算出された前記類似度に基づいて、前記第１の文字列情報を出力する出力ステップと
を含む音声処理方法。