JP5094120B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP5094120B2
JP5094120B2 JP2006535901A JP2006535901A JP5094120B2 JP 5094120 B2 JP5094120 B2 JP 5094120B2 JP 2006535901 A JP2006535901 A JP 2006535901A JP 2006535901 A JP2006535901 A JP 2006535901A JP 5094120 B2 JP5094120 B2 JP 5094120B2
Authority
JP
Japan
Prior art keywords
voice
standard pattern
audio data
data
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006535901A
Other languages
English (en)
Other versions
JPWO2006126649A1 (ja
Inventor
利之 寺西
浩司 幡野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2006535901A priority Critical patent/JP5094120B2/ja
Publication of JPWO2006126649A1 publication Critical patent/JPWO2006126649A1/ja
Application granted granted Critical
Publication of JP5094120B2 publication Critical patent/JP5094120B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Description

本発明は、音声編集装置及び音声編集方法に関する。
記録した音声の音声データを編集する場合、従来は、編集者が再生された音声を聞きながら編集点を特定し、切り出しを行っている。
また、特許文献5に開示される従来技術では、音声カード(音声をカードに記録し、そのカードの表面に写真等を貼付したもの)を作成する際に、高度な音声編集プログラムを利用してコンピュータの画面上の編集用ウインドウに、記録した音声を表示し、編集者が、マウス等のツールを用いて音声の部分的な削除、切り出し、結合等を行っている。
また、音声認識装置では、音声認識辞書としての音声標準パターン(以下、単に標準パターンという)を用いて音声認識を行うが、音声認識可能な語彙を増やすためには、標準パターンを増やす必要がある。この際、既存の標準パターンの一部を削除したり、切り出したりすることによって標準パターンを作成することがあり、これも、音声データの編集の一形態である。
以下、音声データの編集について、音声認識装置における音声認識辞書としての標準パターンの編集を例にとって説明する。
音声認識装置は、認識対象の音声を所定の時間間隔(フレーム)で区切り、各フレームの音声波形の特徴を表す多次元の特徴パラメータ(ケプストラム)を抽出し、この特徴パラメータの時系列パターンを、音声認識装置に蓄積されている標準パターン(音声認識の基本単位となる語彙の特徴パラメータの時系列パターン)と比較し、両者の類似度を判定し、最も類似度の高い語彙を認識結果として出力する。
ケプストラム(cepstrum:特徴パラメータ)は、音声信号を20msec〜40msec程度の時間窓で区切り、その時間窓に対応する音声信号に対して、フーリエ変換(FFT)による音響分析を行い、その絶対値(振幅スペクトル)の対数を求め、その対数の周波数スペクトルに対して、逆フーリエ変換(IDFT)を行うことによって得られる。
すなわち、FFTによって得られる音声の周波数スペクトルは、その音声の大まかな形状の情報(音韻性を示す包絡情報)と、細かい振動成分の情報(声の高さを示す微細構造情報)を含んでいるが、音声認識では、音声の音韻性を抽出すること(つまり、その声が何という音であるかを推定すること)が重要であり、後者の微細構造情報は、あまり役立たない。そこで、対数処理後の周波数スペクトルについて、再度フーリエ変換処理(IDFT)を行い、包絡情報と微細構造情報とを分離する。
すなわち、IDFTによって、ケフレンシー軸(横軸)の左側に包絡情報が集中し、一方、ケフレンシー軸の右側に微細構造情報が集中し、これにより、包絡情報と微細構造情報を効率的に分離することができる。これがケプストラムである。なお、音響分析として、FFTの他に、LPC(線形予測符号化)が用いられることがある。
また、人間の聴覚特性に合わせてケフレンシー軸を対数的に変換することをメル化と呼び、メル化されたケプストラムは、メルケプストラムと呼ばれる。
本明細書では、「ケプストラム」は、「メルケプストラム」を含む広い概念の用語として使用する。また、本明細書では、「ケプストラム」を、主として「特徴パラメータ」と表示する。また、「ケプストラム」や「特徴パラメータ」を、「音声データ(上位概念の用語)」と記載する場合もある。なお、上位概念の用語としての「音声データ」には、上記の音声の特徴パラメータ(ケプストラム)の他、「音声をテキスト化したもの」、「音声データ(波形データそのもの)が含まれるものとする。
音声認識装置には、認識辞書としての多数の標準パターン(すなわち、認識単位となる語彙の一つ一つについてのケプストラム:その語彙の音声の特徴を示す特徴パラメータ)が用意されている。認識可能な語彙を増やすためには、標準パターンを豊富化しなければならない。
従来、音声認識に用いられる標準パターンを新規に作成する方法としては、単語のテキストを入力することによって、その単語の標準パターンを自動的に作成する方法(特許文献1)が提案されている。
また、標準パターンの代わりに音素片辞書を使用する提案もなされている(特許文献2)。この特許文献2には、不特定話者用の認識単語辞書を作成するために、少数の話者が発音した単語の特徴パラメータを、多数の話者の音声に基づいて作成された汎用性のある標準パターンと比較して類似度を求めて音素片辞書を作成し、この音素片辞書を用いて音声認識を行う技術が開示されている。
また、近年、音声認識装置を携帯端末(携帯電話端末等)に搭載し、音声認識を利用して携帯端末の動作を制御できるようにする技術が提案されている(例えば、特許文献3参照)。
また、音声認識装置とテキスト変換装置を携帯端末(携帯電話端末、PDA等)に搭載し、入力音声をテキストデータに自動変換できるようにする技術も提案されている(特許文献4)。
省スペースや低コストが厳しく求められる携帯端末には、簡単な認識辞書(標準パターン)を備えた比較的安価な音声認識装置を搭載するのが現実的である。この場合、携帯端末のユーザが、自己の現実の利用状況に合わせて、適応的に認識辞書(標準パターン)を更新する(すなわち、認識辞書のカスタマイズを行う)ことになる。
携帯端末に搭載される認識辞書(標準パターン)のカスタマイズに際し、その手続や機器操作が面倒であると、携帯端末のユーザの利便性が損なわれることになる。したがって、携帯端末のユーザに過度の負担をかけることなく、快適に認識辞書(標準パターン)を拡張していくことを可能とする技術が求められる。また、例えば、携帯端末上で、長い音声データの一部を編集する必要性が生じた場合等には、長い音声を最初から入力するのはきわめて効率が悪いため、このような場合に、音声データを簡単に編集する技術が求められる。
特開平11−190997号公報 特開平5−188988号公報 特開2004−153306号公報 特開2003−188948号公報 特開2000−276184号公報
特許文献1に記載される標準パターン(音声データ)作成方法では、標準パターンとして登録される全ての語彙を、テキスト入力(文字入力)する必要がある。一般に、テキスト入力は面倒である。特に、携帯端末の入力キーは小さく、テキスト入力には不向きである。
また、特許文献2に記載される標準パターン(音声データ)作成方法は、追加したい認識語句を正確に全て発声する必要があるため、特に長い語句を追加する場合に、手間がかかり、間違えてしまう可能性がある。
また、特許文献5に記載される音声編集方法では、音声データの編集の際に、高度な専用の音声編集プログラムを使用するが、このような高度かつ専用の音声編集プログラムを携帯端末に搭載するのはコスト面からみても困難である。また、専用の音声編集プログラムによる音声データの編集には、マウス等を用いた複雑な機器操作が必要であり、この点でも携帯端末への適用が困難である。また、専用の音声編集プログラムによって音声データを編集すると、編集時間が長くなりがちである。
本発明は、このような考察に基づいてなされたものであり、音声データの編集を簡易かつ安価に行えるようにし、例えば、携帯端末上でも音声データの編集を手軽に行えるようにすることを目的とする。そして、本発明の具体的な目的の一つは、音声認識装置に登録される標準パターンを容易に豊富化し、これによって、音声認識可能な語彙を効率的に拡張できる音声認識装置及び音声認識方法を提供することである。
本発明の音声認識装置は、標準パターンとしての複数の音声データを保存するデータベースと、前記データベースに標準パターンとして保存されている前記複数の音声データから第1の音声データを選択する選択部と、変更箇所としての第2の音声データをユーザが入力する音声入力部と、前記第1の音声データのうち、前記第2の音声データと一致した部分を変更箇所として特定する変更箇所特定部と、前記第1の音声データのうち、前記変更箇所特定部により特定された前記変更箇所を削除した音声データを新規の標準パターンとして前記データベースに追加するデータベース更新部と、前記データベースに保存された標準パターンにもとづいて音声認識を行う音声認識部と、を有する。
新規の音声データをゼロからつくるのではなく、既存の音声データを編集して作るようにし、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所を自動的に特定すること(すなわち、音声認識装置がもつ音声認識機能を、音声データの編集にも活用すること)によって、音声データの編集作業が簡単化される。すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の切り出しや結合等が可能となる。例えば、「私は、2005年4月1日にA社に入社しました」という既存の音声データが携帯端末内に保存されているとする。この既存の音声データを編集する際に、携帯端末の表示部に「切り出す箇所を発音して下さい」という表示をなし、これに応答して、ユーザが「2005年4月1日に」と発声し、その音声が、携帯端末に入力される。すると、既存の音声データと新たに入力された音声とのパターンマッチングが行われて、一致する箇所が切り取られる。その結果として、「私は、A社に入社しました」と言う音声を取得することができる。また、本発明は、既存の音声データを複数の文章に分割するために使用することもできる。例えば「10時から会議です。場所は第一会議室です」と言う既存の音声データが携帯端末に保存されており、携帯端末の表示部上に「分割したい音声箇所を発音してください」と表示し、ユーザが、「場所は」と音声し、この音声は、新規の音声入力として携帯端末に取り込まれ、既存の音声データとパターンマッチングによる比較がなされる。この結果、既存の音声データの「場所は」の前で文章が分割され、その結果として、「10時から会議です。場所は第一会議室です」という音声データは、「10時から会議です」と「場所は第一会議室です」という2つの音声データに分割される。このように、本発明によれば、携帯端末などを利用して、音声データを簡単に編集することが可能となる。この結果、多様な音声データを容易に、効率的に、かつ安価に作成することが可能となる。
また、本発明の音声認識装置では、標準パターンとしての複数の音声データを保存するデータベースと、前記データベースに標準パターンとして保存されている前記複数の音声データから第1の音声データを選択する選択部と、変更箇所としての第2の音声データを、また置き換えデータとしての第3の音声データを各々ユーザが入力する音声入力部と、
前記第1の音声データのうち、前記第2の音声データと一致した部分を変更箇所として特定する変更箇所特定部と、前記第1の音声データのうち、前記変更箇所特定部により特定された前記変更箇所に前記第3の音声データを置き換えた音声データを新規の標準パターンとして前記データベースに追加するデータベース更新部と、前記データベースに保存された標準パターンにもとづいて音声認識を行う音声認識部と、を有する。
新規の標準パターンをゼロからつくるのではなく、既存の標準パターンを活用して作るようにし、また、パターンマッチング処理を用いて変更箇所を自動特定すること(音声認識装置がもつ音声認識機能を、標準パターンの作成にも活用すること)によって、現実の生活に役立つ有用な標準パターンを、非常に効率的に作成することができる。ここで、携帯端末に音声認識装置を搭載し、音声認識による携帯端末の動作の制御を実施する場合を想定すると、定型的な音声パターンをもつ語彙群が必要となる可能性が高い。例えば、公共の場所において流れる音声アナウンスを音声認識して、携帯電話の電源を自動的にオフさせる場合を考える。公共の場所としては、「映画館内」、「病院内」、「駅構内」、「建物内」等があるから、まず、「館内では携帯の電源をオフにして下さい」という映画館の館内アナウンスを音声認識できるようにし(つまり「館内では携帯の電源をオフにして下さい」という語彙についての標準パターンを携帯端末の音声認識辞書に登録しておく)、次に、その標準パターンを流用して、「館内では」という箇所を、「病院内では」、「駅構内では」、「建物内では」という音声データに置換すれば、電源の自動オフ制御に用いる標準パターンを、効率的に豊富化することができる。また、流用元の標準パターンの、「館内では」という箇所を変更する場合、音声認識用のマッチング処理を用いれば、変更箇所は、簡単な手続で自動的に指定することができる。例えば、携帯端末のユーザがマイクから「館内では」という音声を入力し、流用元の標準パターン(「館内では携帯の電源をオフにして下さい」という語彙の標準パターン)とのマッチングを行い、例えば、マッチした部分(つまり、「館内では」という部分)を変更箇所とすることにより、流用元の標準パターンのどこを変更するのかを容易に指定することができる。そして、更新用の音声データ(「病院内では」、「駅構内では」、「建物内では」)を、更新用音声データ(「館内では」)と置換する処理を行うことで、電源の自動オフ制御に用いる、多数の新たな標準パターンを効率的に作成することができる。
本発明の音声認識装置は、既存の機能や音声データを最大限に活用するため、無駄が少なく、小型化や低価格化に適しており、携帯電話端末にも搭載することができる。また、使用する音声データのカスタマイズも容易であることから、携帯端末のユーザは、一日の生活の種々の場面で、音声編集機能(標準パターンの編集機能を含む)を自由に、手軽に利用することができる。したがって、携帯端末の多機能や高機能化が進展し、携帯端末の利用価値が向上する。
また、本発明の音声認識方法は、標準パターンとしての複数の音声データを保存するデータベースから第1の音声データを選択するステップと、変更箇所としての第2の音声データをユーザが入力するステップと、前記第1の音声データのうち、前記第2の音声データと一致した部分を変更箇所として特定するステップと、前記第1の音声データのうち、前記変更箇所を削除した音声データを新規の標準パターンとして前記データベースに追加するステップと、前記データベースに保存された標準パターンにもとづいて音声認識を行うステップと、を含む。
また、本発明の音声認識方法は、標準パターンとしての複数の音声データを保存するデータベースから第1の音声データを選択するステップと、変更箇所としての第2の音声データを、また置き換えデータとしての第3の音声データを各々ユーザが入力するステップと、前記第1の音声データのうち、前記第2の音声データと一致した部分を変更箇所として特定するステップと、前記第1の音声データのうち、前記変更箇所に前記第3の音声データを置き換えた音声データを新規の標準パターンとして前記データベースに追加するステップと、前記データベースに保存された標準パターンにもとづいて音声認識を行うステップと、を含む。
これによって、無理なく、最小限の労力で、現実に役立つ新規な音声データ(標準パターン)を、効果的に増やすことが可能となる。
本発明の音声認識装置では、新規の音声データ(音声認識用辞書としての標準パターンを含む)をゼロからつくるのではなく、既存の音声データを編集して作るようにし、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所を自動的に特定すること、すなわち、音声認識装置がもつ音声認識機能を、音声データの編集にも活用することによって、音声データの編集作業が簡単化される。
すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の削除置き換えが可能となり、音声データの編集を簡単に行えるようになる。
したがって、本発明によれば、携帯端末などを利用して、音声データを簡単に編集することが可能となり、この結果、多様な音声データを容易に、効率的に、かつ安価に作成することが可能となる。例えば、携帯端末に保存されている長い音声データの一部のみを変更する場合にも、その変更箇所のみを特定し、他の音声データに置換するなどして、簡単に編集、加工を行うことができる。
具体的には、本発明の音声認識装置および音声認識方法によって、既存の標準パターンを活用して多様な標準パターンを効率的に作成することができる。また、パターンマッチング処理を用いて変更箇所を自動特定すること、すなわち、音声認識装置がもつ音声認識機能を、標準パターンの作成にも活用することによって、現実の生活に役立つ有用な標準パターンを、非常に効率的に作成することが可能となる。したがって、音声認識可能な語彙を、柔軟かつ迅速に拡大することが可能となる。
また、音声認識によって携帯端末の動作の制御を行う場合や、入力音声信号をテキストデータに変換して電子メールを効率的に作成するような場合には、内容の一部だけが異なる、一群の音声の音声認識が重要となると考えられる。したがって、既存の標準パターンの一部を改変して新規な標準パターンを豊富化していくという、本発明の音声認識装置で採用する手法は極めて有効である。
また、流用元の既存の標準パターンにおける変更箇所も、パターンマッチング処理を利用して簡単に指定することができる。すなわち、本発明では、音声認識装置がもつマッチング処理機能を標準パターンの作成にも利用するため、ハードウエアの追加等も最小限に抑えられる。よって、実現が容易であり、コスト面でも有利となる。
また、流用元の既存の標準パターンデータベースを更新するための更新用音声データとしては、ユーザが入力する音声の音声や、既存の標準パターンから切り取って得られる音声データや、あるいは、既存の標準パターン自体の音声データを利用することができる。多様な音声データを利用できるため、新しい標準パターンの作成処理が効率化される。
本発明の音声認識置は、音声データのカスタマイズが容易であり、小型化や低コストという特徴をもつため、電子機器への搭載に適する。したがって、電気機器の多機能化の進展に寄与する。
また、本発明の音声認識方法(標準パターン作成方法を含む)によれば、無理なく、最小限の労力で、現実に役立つ新規な音声データ(標準パターン)を、効果的に増やすことが可能となる。
次に、本発明の実施形態について、図面を参照して説明する。
本発明は、広義の音声編集装置や音声編集方法に関するものであり、純粋な音声の編集、加工はもちろんのこと、他の種々の用途に利用することができる。
例えば、本発明の音声編集装置を、音声認識の用途に使用する(すなわち、音声認識装置として利用する)ことによって、音声認識辞書としての標準パターンを効率的に拡大することが可能となる。
以下の説明では、まず、第1の実施形態〜第4の実施形態にて、本発明の音声編集装置を、音声認識装置における標準パターンの豊富化のために利用する場合の例について説明し、そして、第5の実施形態において、本発明の音声編集装置を、音声認識の用途を離れて、純粋な音声編集、加工の用途に使用した場合について説明することにする。
(第1の実施形態)
図1は、本発明の音声認識装置(本発明の音声編集装置を音声認識の用途に利用したもの)の概要を説明するためのブロック図である。
図示されるように、本発明の音声認識装置は、音響分析部10と、特徴パラメータ抽出部12と、変更箇所特定部14(変更箇所の特定のために使用されるパターンマッチング部16をもつ)と、標準パターン作成部18と、標準パターンデータベース更新部20と、パターンマッチング処理を実行するパターンマッチング部(音声認識装置の本来の音声認識を行う音声認識部)22と、標準パターンデータベース(音声認識辞書ファイル)24と、を有する。ここで、標準パターンデータベース24に保存されているデータの形式は、「特徴パラメータ(ケプストラム)」の他、「音声をテキスト化したもの(文字列としての辞書データ)」、「音声データ(波形データ自体)のいずれであってもよいが、以下の説明では、標準パターンデータベース24には、標準パターンとして、「特徴パラメータ(ケプストラム)」が保存されているものとして説明を行う。
なお、図1では、変更箇所特定部14内のパターンマッチング部16と、音声認識装置の本来の音声認識を実施するパターンマッチング部(音声認識部)22と、を別々に記載しているが、これに限定されるものではなく、共通のパターンマッチング部を状況に応じて使い分ける構成であってもよい。この点は、以下の実施形態でも同様である。
図1の音響分析部10は、入力音声信号を、20msec〜40msec程度の時間窓で区切り、その時間窓に対応する音声信号についてフーリエ変換(FFT)を行う。
また、特徴パラメータ抽出部12は、音響分析結果の絶対値(すなわち周波数スペクトルの振幅)の対数を求め、その対数の周波数スペクトルに対して、逆フーリエ変換(IDFT)を行い、さらにメル化を行ってメルケプストラム(特徴パラメータ)を得る。なお、特徴パラメータは、変更箇所特定部14および標準パターン作成部18に送られる。
また、変更箇所特定部14は、標準パターンデータベース24から、流用元となる既存の標準パターンの特徴パラメータを取り出す。そして、パターンマッチング部16を用いて、変更箇所特定用音声データ(例えば、ユーザがマイクを用いて入力する)の特徴パラメータと、流用元の既存の標準パターンの特徴パラメータとのマッチングを行い、マッチした箇所またはマッチしなかった箇所を変更箇所として特定する。そして、変更箇所の位置を示す変更箇所位置信号が、標準パターン作成部18に送られる。
標準パターン作成部18は、流用元の標準パターンについて、切り取り、削除、置換、結合といった編集処理を行い、新規の標準パターンを作成する。すなわち、流用元の標準パターンの変更箇所の音声データを切り取った後に残る音声データ(つまり、切り取った後の残余部分の音声の特徴パラメータ=変更箇所の音声を削除して得られる音声の特徴パラメータ)、切り取った音声データ(つまり、切り出した音声の特徴パラメータ)、変更箇所の音声データを他の音声データ(例えば、ユーザがマイクを用いて入力する置換用音声データ)に置き換えて得られる音声データ(つまり、置換後の語彙の音声の特徴パラメータ)、および、切り取った音声データの冒頭または末尾に他の音声データを結合することによって得られる音声データ(つまり、結合処理後の語彙の音声の特徴パラメータ)、の少なくとも一つを、新しい標準パターンとする。
標準パターンデータベース更新部20は、標準パターンデータベース(音声認識辞書ファイル)24を更新する。更新の内容としては、「置換」と「追加」の二種類がある。すなわち、「置換」による更新の場合は、新たに作成された標準パターンを、流用元の既存の標準パターンに置き換える。また、「追加」の場合は、新たに作成された標準パターンを、標準パターンデータベース24に追加する。この場合、流用元の既存の標準パターンと新規の標準パターンは併存する。
図2は、図1の本発明の音声認識装置における、既存の標準パターンを流用して標準パターンを新規に作成し、標準パターンデータベースの内容を更新する処理の主要な手順を説明するためのフロー図である。図2中では、説明の便宜上、音声データ(音声の特徴パラメータ)の時系列パターンを、アルファベットで表現している。
まず、流用元の既存の標準パターンの変更箇所の特定処理を実行する(ステップS100)。
すなわち、変更箇所特定部14内のパターンマッチング部16にて、変更箇所特定用音声データ(「cd」とする)と、流用元の標準パターン(「abcdef」とする)とのパターンマッチング処理を実施する(ステップS101)。そして、マッチングした部分(「cd」)を変更箇所とする(ステップS102)。あるいは、マッチングしなかった部分(abef)を変更箇所とする(ステップS103)。
次に、標準パターン作成部18にて、標準パターンの新規作成処理を実施する(ステップS200)。
すなわち、ステップS100(S102、S103)にて特定された変更箇所から、音声データを切り取る(ステップS201,202)。
切り取った音声データ「abef」や「cd」自体を、新しい標準パターンとすることができる(S301,S302)。「abef」は、ステップS101にてマッチした部分の以外の部分を切り出したものであり、これは、流用元の標準パターンからマッチした部分の音声データを削除して得られる音声データに等しい。
次に、置換処理や結合処理を行う(ステップS201、S204)。ステップS201では、ステップ102で特定された変更箇所の音声データ「cd」を、更新用音声データ「QRS」によって置換する。また、ステップS204では、ステップS201にて切り取った音声データ(「cd」)の冒頭あるいは末尾に、更新用音声データ「QRS」を結合させる。ここで、更新用音声データ「QRS」は、マイクから入力される入力音声の音声データ、あるいは、S201,S202で切り取った音声データ、あるいは、既存の標準パターンの音声データそのもの、のいずれかである。
すなわち、ステップS203では、「ab○○ef」の○○の部分を、「QRS」で置換し、「abQRSef」とする(流用元の標準パターンの「cd」を「QRS」で置換した形態となる)。
また、ステップS204では、「cd」の冒頭あるいは末尾に「QRS」を結合して、「QRScd」あるいは「cdQRS」とする。
新たに作成された、「cd(切り取ったデータ)」、「abef(マッチした部分の音声データを削除して得られるデータ」、「abQRSef(置換により得られるデータ)」、「QRScd」あるいは「cdQRS(結合により得られるデータ)」のいずれかを、新しい標準パターンとすることができる。
次に、標準パターンデータベース更新部20が、標準パターンデータベース24の更新処理を実施する(ステップS300)。更新の内容としては、「置換処理(ステップS301)」と「追加処理(ステップS302)」の二種類がある。
すなわち、「置換」による更新の場合(ステップS301)では、新たに作成された標準パターンを、流用元の既存の標準パターンに置き換える。「追加」の場合(ステップS302)では、新たに作成された標準パターンを、標準パターンデータベース24に追加する。この場合、流用元の既存の標準パターンと新規の標準パターンは併存する。
このように、本発明では、新規の標準パターンをゼロからつくるのではなく、既存の標準パターンを活用して作るようにし、また、パターンマッチング処理を用いて変更箇所を自動特定すること(音声認識装置がもつ音声認識機能を、標準パターンの作成にも活用すること)によって、有用な標準パターンを、非常に効率的に作成することが可能となる。したがって、音声認識可能な語彙を、柔軟かつ迅速に拡大することができる。
(第2の実施形態)
本実施形態では、電車内のアナウンスを音声認識するために、標準パターンを豊富化する場合を例にとり、音声認識装置の構成と動作、標準パターンの作成手順について、より具体的に説明する。
例えば、電車通勤をしているサラリーマンは、仕事に疲れて居眠りをしてしまい、降車駅(例えば、渋谷駅とする)で降車できないことがある。この場合、そのサラリーマンの携帯電話端末に音声認識装置を搭載し、「まもなく渋谷です」という車内アナウンスを音声認識し、この音声認識を契機としてバイブレータを起動し、振動によって居眠りをしているサラリーマンを目覚めさせることができれば、降り忘れを防止することができ、便利である。ただし、そのサラリーマンが、「横浜」においても頻繁に下車する場合には、「まもなく横浜です」というアナウンスを音声認識してバイブレータを起動することも必要となる。
この場合、「まもなく渋谷です」という標準パターンが音声認識装置に登録されているのであれば、この標準パターンを流用し、「渋谷」を「横浜」に置換することができれば、必要な標準パターンを、効率的に作成することができる。
図3は、本発明の音声認識装置を内蔵する携帯電話端末のユーザが、新規に標準パターンを作成する場合の主要な手順を説明するための図である。
図示されるように、最初に、「まもなく渋谷です」という車内アナウンスを、携帯電話端末550のマイク2を用いて録音し、その車内アナウンスの音声について、音響分析を経て特徴パラメータを抽出し、標準パターンとして携帯電話端末550内に登録しておく(ステップS1)。
次に、携帯電話端末550の表示部(液晶ディスプレイ等)30に、「変更したい部分を発声してください」という案内メッセージが表示される(ステップS2)。
次に、ユーザ(P)が、「渋谷」と発音する。この「渋谷」という音声は、携帯電話端末550のマイク2を介して携帯電話端末550内に取り込まれ、音響分析を経て特徴パラメータが抽出される。そして、流用元の標準パターン、すなわち「まもなく渋谷です」という語彙の特徴パラメータと、変更箇所を特定するための音声データ「渋谷」の特徴パラメータのマッチング処理がなされ、ここでは、マッチングした箇所が変更箇所として特定される(ステップS4)。
次に、携帯電話端末550の表示部30に、「置き換える文字を発声してください」という案内メッセージが表示される(ステップS5)。
ユーザ(P)は、「横浜」と発音し、この「横浜」という音声は、携帯電話端末550のマイク2を介して携帯電話端末550内に取り込まれ、音響分析を経て特徴パラメータが抽出される。
ここで、誤った標準パターンの作成を防ぐため、新規作成する標準パターン(「まもなく横浜です」)を、携帯電話端末550の表示部30上に表示し、ユーザPに、これでよいかを問い合わせる。ユーザ(P)は、画面の確認後、「はい(yes)」を選択する(ステップS7)。
すると、「まもなく横浜です」という語彙の特徴パラメータからなる標準パターンが自動的に作成され、標準パターンデータベース24が更新される(ステップS8)。すなわち、ステップS4で特定された変更箇所の音声データ(「渋谷」の特徴パラメータ)を、「横浜」の特徴パラメータと置換し、これによって、「まもなく横浜です」という語彙の特徴パラメータからなる標準パターンが作成され、その新規作成された標準パターンが、標準パターンデータベース(図1の参照符号24)に追加されることになる。
図4(a)〜(d)は、図3に示される手順に従って標準パターンが作成される場合の、具体的な信号処理の内容を示す図である。
図4(a)では、流用元の標準パターンの音声データ「ツギワシブヤデス」と、変更箇所特定用音声データ「シブヤ」とのパターンマッチング処理が実施される。
図4(b)では、流用元の標準パターンのうちの「シブヤ」の部分が変更箇所であることが特定されており(2つの太い矢印で変更箇所が特定されている)、また、「シブヤ」が、「ヨコハマ」に置換されることが示されている。
図4(c)では、「ツギハヨコハマデス」という更新音声(すなわち、新規作成された標準パターン)が、音声記憶部(図1の参照符号24)に蓄積されている既存の標準パターン群(「ツギノエキワヨコハマデス」、「モウスグヨコハマデス」、「マモナクヨコハマデス」)に追加される。
図4(d)は、更新後の標準パターン群を示している。
図5は、本発明の音声認識装置の具体的な構成の一例を示すブロック図である。図5において、図1と共通する部分には、共通の符号を付してある。
図5では、図1の構成に、マイク(MIC)2と、録音音声蓄積部4と、音声認識装置の動作を統括的に制御する制御部26と、表示インタフェース28と、表示部30と、が追加されている。音声認識装置の基本的な動作は、図1を用いて先に説明したとおりである。
図6は、図5の音声認識装置の各部の動作手順ならびにデータ(信号)の授受の手順を示すシーケンス図である。
まず、制御部26は、表示部30上に流用元音声の選択画面を表示させ、ユーザに、流用元となる音声データを選択させる(ステップS400)。この場合は、図3で説明したように、「まもなく渋谷です」という車内アナウンスの音声が予め録音され、録音音声蓄積部4に蓄積されているため、これを選択する。
次に、音響分析部10が、音声分析を行い(ステップS401)、特徴パラメータ抽出部12が、特徴パラメータを抽出する(ステップS402)。抽出された特徴パラメータは、変更箇所特定部14および標準パターン作成部18に送られる(ステップS403,S404)。
また、制御部26は、表示部30上に、変更箇所を特定するための音声の入力を促す案内メッセージを表示する(ステップS405)。続いて、音響分析(ステップS406)、特徴パラメータ抽出(ステップS407)を経て、特徴パラメータが抽出され、特徴パラメータは、変更箇所特定部14および標準パターン作成部18に送られ(ステップS408,S409)、変更箇所が特定される(S410)。変更箇所の位置を示す変更箇所位置信号は、標準パターン作成部18に送られる(S411)。
次に、ユーザが、変更箇所に置換するための更新用音声(「横浜」)を入力する(S412)。すると、音響分析(S413)、特徴パラメータ抽出(S414)、特徴パラメータの標準パターン作成部18への送信(S415)を経て、新しい標準パターンが作成される(S416)。
新しく作成された標準パターンは、標準パターンデータベース更新部20に送られ(ステップS417)、また、表示部30にも送られ(S418)、ユーザによる更新確認を経て(ステップS419)、標準パターンデータベース24が更新される(ステップS420)。
(第3の実施形態)
本実施形態では、本発明の音声認識装置が搭載された携帯電話端末における設定(例えば、電子メール受信時の設定)を、ユーザの音声によって制御する場合を想定し、この制御に必要な標準パターンを新規作成する場合の手順について説明する。
携帯電話端末のユーザは、電子メールの着信時において表示部に表示される画面や、着信時に出力される着信音を自身の好みに合わせて、適宜、変更することができ、また、受信メールを蓄積するフォルダも自由に選択することができる。
通常は、メール着信時の画面や着信音の変更などは、入力キーの操作によって行われるが、携帯電話端末の操作キーは小さいために、操作がかなりむずかしい。ここで、キー操作に代えて、音声入力によってメール着信時の画面や着信音の変更などを行えるようになれば、携帯電話端末の利便性が向上する。
また、「表示設定」という用語は、広い意味を持っており、電子メール時の表示設定の他に、電話の待ち受け画面の表示設定や、ゲームのダウンロード時の表示設定等が含まれる。携帯電話端末の設定を変更する場合には、まず、「表示設定を変更する」という上位概念のメニュー項目を変更し、次に、「メール受信時の表示設定を変更する」という具体的なメニュー項目を選択するのが普通である。
ここで、上位概念のメニュー項目である「表示設定の変更」を、音声により選択する場合には、「表示設定を変更します」というユーザの音声を認識する必要があるため、「表示設定を変更します」という語彙の音声の標準パターンを予め登録しておく必要がある。
ここで、仮に、携帯電話端末内には、「メール受信時の表示設定を変更します」という標準パターンが登録されているとすると、「メール受信時の」という部分の音声データを削除すれば、「表示設定を変更します」という標準パターンを簡単に作成することができる。
図7は、メール受信時の表示設定を変更しますという標準パターンを音声認識により選択し、その選択された標準パターンからメール受信時のという部分を削除して新たな標準パターンを作成する場合の手順を示す図である。
図7に示すように、携帯電話端末550の表示部30に、「変更したい認識語彙を発声してください」という案内メッセージが表示される(ステップS1)。
ユーザ(P)は、流用元の標準パターンを検索するためのキーワードである「メール受信」を発声する(ステップS2)。
すると、音声認識がなされ、「メール受信」とマッチングする部分をもつ標準パターンがすべて抽出される。すなわち、標準パターンとして登録されている語彙の中から、キーワード「メール受信」を含む語彙(「1.メール受信時の表示設定を変更します」、「2.メール受信時の音設定を変更します」、「3.メール受信時の振分け設定をします」)が、流用元の標準パターンの候補として抽出され、表示部30に表示される(ステップS4)。
このように、流用元の標準パターンを選択する場合にも、音声認識装置が本来的に有している音声認識機能を活用することにより、流用元の標準パターンを効率的に見つけ出すことができる。
次に、ユーザ(P)は、「1.メール受信時の表示設定を変更します」を選択する(ステップS5)。
次に、携帯電話端末550の表示部30には、「変更したい部分を発声してください」という案内メッセージが表示される(ステップS6)。
ユーザ(P)は、「メール受信時の」と発音する。この音声は、携帯電話端末550内に取り込まれ、音響分析、特徴パラメータの抽出がなされ、ステップS5で選択された標準パターン「メール受信時の表示設定を変更します」の特徴パラメータとのマッチングがなされ、この結果として、変更箇所が、「メール受信時の」という箇所であることが特定される(ステップS8)。
次に、携帯電話端末550の表示部30上には、標準パターンをどのように変更するのかを問い合わせる案内メッセージが表示される。すなわち、「1.対象部分削除」と、「2.対象部分変更」という2つの選択肢が表示される(ステップS9)。
ここでは、ユーザ(P)は、「1.対象部分削除」を選択する。すると、表示部30には、「削除」を本当に行ってよいかを問い合わせる確認画面が表示され、ユーザ(P)が「はい(yes)」を選択すると、「表示設定を変更します」という所望の語彙についての標準パターンが新規に作成される(ステップS11)。
流用元の標準パターンから「メール受信時の」という音声データが削除されて新たな標準パターンが作成されたものであるが、この処理は、流用元の標準パターンである「メール受信時の表示設定を変更します」という音声データから、変更箇所の音声データ(「メール受信時の」)という音声データを切り取り、切り取った後の残余の部分(「表示設定を変更します」)を新たな標準パターンとするのと等価である。
図8(a)〜(d)は、図7に示される手順に従って標準パターンが作成される場合の、具体的な信号処理の内容を示す図である。
図8(a)では、流用元の標準パターンの音声データ「メールジュシンジノヒョウジセッテイヲヘンンコウシマス」が既に特定されており、この標準パターンと、変更箇所特定用音声データ「メールジュシンジノ」とのパターンマッチング処理が実施される。
図8(b)では、流用元の標準パターンのうちの「メールジュシンジノ」の部分が変更箇所であることが特定される(2つの太い矢印で変更箇所が特定されている)。
図8(c)では、流用元の標準パターンの「メールジュシンジノヒョウジセッテイヲヘンンコウシマス」から、「メールジュシンジノ」が削除され、「ヒョウジセッテイヲヘンンコウシマス」という新規の標準パターンが作成されている。
この新たに作成された標準パターンが、標準パターンデータベース(図1の参照符号24)に登録されている標準パターン群(すなわち、「メールジュシンジノヒョウジセッテイヲヘンコウシマス」、「メールジュシンジノオトセッテイヲヘンコウシマス」、「メールジュシンジノフリワケセッテイヲヘンコウシマス」)に新規に追加される。
図8(d)は、更新後の標準パターン群を示している。
図9は、本発明の音声認識装置の具体的な構成の他の例(図7,図8に記載の制御を行う例)を示すブロック図である。図9において、図1,図5と共通する部分には、同じ参照符号を付してある。
図9では、図5の構成から、録音音声蓄積部4を削除すると共に、流用元標準パターン抽出部32(パターンマッチング部34を含み、入力されたキーワードと合致するパターンをもつ既存の標準パターンのすべてを、流用元標準パターンの候補として抽出する機能をもつ)を追加した構成となっている。
なお、流用元標準パターン抽出部32のパターンマッチング部34は、標準パターン作成部20から渡される既存の標準パターンの特徴パラメータと、特徴パラメータ抽出部12から送られてくるキーワード「メール受信」の特徴パラメータと、を比較してマッチング度を判定し、入力されたキーワードと合致するパターンをもつ既存の標準パターンのすべてを、流用元標準パターンの候補として抽出する。
また、図9の音声認識装置の基本的な動作は、図1、図5を用いて先に説明したとおりである。
図10は、図9の音声認識装置の各部の動作手順ならびにデータ(信号)の授受の手順を示すシーケンス図である。
まず、制御部26は、表示部30上に流用元音声を選択ためのキーワード音声の入力を促す案内画面を表示し、ユーザは、キーワード(「メール受信」)を音声入力する(ステップS600)。
続いて、音響分析(ステップS601)、特徴パラメータ抽出(ステップS602)が行われ、入力されたキーワード(「メール受信」)の音声の特徴パラメータと、既存の標準パターン群の各々の特徴パラメータとを比較してマッチング処理が実施され(ステップS603)、マッチングする部分をもつ標準パターンがすべて抽出される。
そして、抽出された標準パターンの情報が表示部30に送られ(ステップS604)、表示部30上に抽出された標準パターンの内容がすべて表示され、ユーザは、流用元となる標準パターン(「メール受信時の表示設定を変更します」)を選択する(ステップS605)。これにより、流用元の標準パターンが特定される。
続いて、標準パターンデータベース24に記憶されている、流用元の標準パターンの特徴パラメータが、変更箇所特定部14および標準パターン作成部18に送られる(ステップS606,S607)。
次に、ユーザが、変更箇所を特定するための音声(すなわち「メール受信時の」)を入力する(ステップS608)。
続いて、音響分析がなされ(ステップS609)、また、特徴パラメータ抽出がなされ(ステップS610)、抽出された特徴パラメータが、変更箇所特定部14および標準パターン作成部18に送られる(ステップS611,S612)。
変更箇所特定部14では、パターンマッチングによって変更箇所を特定する(ステップS613)。また、変更箇所位置を示す信号は、標準パターン作成部18に送られる(ステップS614)。
次に、ユーザが、削除を行うことを選択する(ステップS615)。これに伴い、流用元の標準パターン「受信時の画面設定を変更します」から、「受信時の」が削除されて、新しい標準パターン(「画面設定を変更します」)が作成される(ステップS616)。
そして、新規に作成された標準パターンの情報が表示部30に送られ、ユーザに、その新しく作成された標準パターンを、標準パターンデータベース24に追加してもよいかを確認する(S618)。
ユーザによって、新規作成された標準パターンの追加が承認されると、標準パターンデータベース更新部20は、新しく作成された標準パターンを標準パターンデータベース24に追加する。これによって、標準パターンデータベース(音声認識辞書ファイル)が更新される(ステップS620)。
(第4の実施形態)
本実施形態では、本発明の音声認識装置を搭載する携帯電話端末の構成と動作について説明する。
図11は、本発明の音声認識装置を搭載する携帯電話端末の外観構成を示す斜視図である。
図示されるように、携帯電話端末1000は、アンテナ(AN)と、上部筐体1002と、下部筐体1004と、表示部1006と、操作キー1008と、標準パターンを記憶している記録媒体(記録メディア)1012を挿入するための挿入口1010と、スピーカ704と、マイク705と、を有している。
図12は、図11の携帯電話端末の内部構成を示すブロック図である。
図示されるように、この携帯電話端末1000は、アンテナANと、無線部700と、音声コーデック701と、デジタル信号処理部702と、A/D変換器およびD/A変換器703と、スピーカ704と、マイク705と、制御部706と、音声記録部707と、音響分析部708と、特徴パラメータ抽出部709と、変更箇所特定部710(パターンマッチング部711を含む)と、標準パターン作成部712と、標準パターンデータベース更新部713と、標準パターンデータベース714と、スタンダードな標準パターンを記録している記録メディア1012とのデータインタフェースとして機能するメディアインタフェース部715と、パターンマッチング部(音声認識装置の本来の音声認識を行い、また、必要に応じて、流用元の標準パターンの候補を抽出するためにも使用される)716と、音声/テキスト変換部717と、を備える。
このような構成をもつ携帯電話端末では、ユーザの音声による携帯電話端末の動作の制御や設定の変更が可能である。
また、音声/テキスト変換部717によって、入力された音声を自動的にテキストに変換することもでき、これによって、電子メールの作成の手間が軽減される。
先に説明したように、携帯電話端末の動作を音声にて制御する場合には、一つの定型的な音声パターンのうち、一部を別の音声に置換した多数の音声の認識が重要となる。
例えば、公共の場所において流れる音声アナウンスを音声認識して、携帯電話の電源を自動的にオフさせる場合を考えると、公共の場所としては、「映画館内」、「病院内」、「駅構内」、「建物内」等があるから、まず、「館内では携帯の電源をオフにして下さい」という映画館の館内アナウンスを音声認識できるようにし(つまり「館内では携帯の電源をオフにして下さい」という語彙についての標準パターンを携帯端末の音声認識辞書に登録しておく)、次に、その標準パターンを流用して、「館内では」という箇所を、「病院内では」、「駅構内では」、「建物内では」という音声データに置換すれば、電源の自動オフ制御に用いる標準パターンを、効率的に豊富化することができる。
また、音声/テキスト変換を利用して、音声入力によって電子メールの文面を作成する場合も、同様に、一つの定型的な音声パターンのうち、一部を別の音声に置換した多数の音声の認識が重要となると考えられる。
携帯電話端末の電子メールは、友人等の親しい仲間との連絡がほとんどであり、特に、待ち合わせの調整等に頻繁に用いられる。
例えば、「月曜日の18時に渋谷のハチ公前で会いましょう」という標準パターンを用意しておき、「月曜日」という部分を、他の曜日に置換したり、「18時」という部分を他の時刻に変更したり、あるいは、「渋谷のハチ公前」という部分を他の場所に変更することにより、現実に頻繁に使用する電子メールの文面に対応する、音声認識用の標準パターンを効率的に作成することができる。
このように、既存の標準パターンの一部を改変して新規な標準パターンを豊富化していくという、本発明の音声認識装置で採用する手法は、携帯端末に搭載される音声認識装置の認識辞書の拡張手法として、極めて有効である。
(第5の実施形態)
前掲の実施形態では、音声認識装置(本発明の音声編集装置を音声認識の用途に使用したもの)を例にとって説明したが、本発明の音声編集装置はいろいろな用途に利用でき、例えば、純粋に音声の加工や編集にも活用できる。
すなわち、例えば、携帯端末のユーザが、携帯端末内に、自己の音声(かなり長い音声)を記録しているとする(その音声データは、例えば、添付メールに埋め込んで友人に送付するために用意されているものである)。ここで、何らかの理由により、その記録されている長い音声データの一部だけを加工する必要性が生じた場合に、もう一度、最初から長い音声の入力を繰り返すのは効率が悪い。
この場合に、パターンマッチングを利用して変更箇所を特定し、その変更部分の音声データを他の音声データに変更できれば、非常に効率的に新規な音声データを作成することができる。
つまり、新規の音声データをゼロからつくるのではなく、既存の音声データを編集して作るようにし、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所を自動的に特定すること(すなわち、音声認識装置がもつ音声認識機能を、音声データの編集にも活用すること)によって、音声データの編集作業が簡単化される。すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の切り出しや結合等が可能となる。
例えば、「私は、2005年4月1日にA社に入社しました」という既存の音声データが携帯端末内に保存されているとする。この既存の音声データを編集する際に、携帯端末の表示部に「切り出す箇所を発音して下さい」という表示をなし、これに応答して、ユーザが「2005年4月1日に」と発声し、その音声が、携帯端末に入力される。
すると、既存の音声データと新たに入力された音声とのパターンマッチングが行われて、一致する箇所が切り取られる。その結果として、「私は、A社に入社しました」と言う音声を取得することができる。
また、本発明は、既存の音声データを複数の文章に分割するために使用することもできる。
例えば「10時から会議です。場所は第一会議室です」と言う既存の音声データが携帯端末に保存されており、携帯端末の表示部上に「分割したい音声箇所を発音してください」と表示し、ユーザが、「場所は」と音声し、この音声は、新規の音声入力として携帯端末に取り込まれ、既存の音声データとパターンマッチングによる比較がなされる。
この結果、既存の音声データの「場所は」の前で文章が分割され、その結果として、「10時から会議です。場所は第一会議室です」という音声データは、「10時から会議です」と「場所は第一会議室です」という2つの音声データに分割される。
このような音声データの編集をする場合の構成は、前掲の実施形態にて説明した構成と同じである。すなわち、メルケプストラムデータによるマッチングにより、既存の音声データの変更箇所を特定することができる(ここで、メルケプストラムデータは、音声データを一定区間で音声分析して算出しているため、音声についても変更箇所の特定が可能である)。
そして、その変更箇所の情報に基づいて、音声の切り取り、新規に入力した音声の挿入、切り取った音声同士の結合などの編集を、自由に行うことができる。
このように、本実施形態における音声編集装置によれば、携帯端末などを利用して、音声データを簡単に編集することが可能となる。この結果、多様な音声データを容易に、効率的に、かつ安価に作成することが可能となる。
以上説明したように、本発明の音声編集装置では、新規の音声データ(音声認識用辞書としての標準パターンを含む)をゼロからつくるのではなく、既存の音声データを編集して作るようにし、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所を自動的に特定すること(すなわち、音声認識装置がもつ音声認識機能を、音声データの編集にも活用すること)によって、音声データの編集作業が簡単化される。
すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の切り出しや結合等が可能となり、音声データの編集を簡単に行えるようになる。
したがって、本発明によれば、携帯端末などを利用して、音声データを簡単に編集することが可能となり、この結果、多様な音声データを容易に、効率的に、かつ安価に作成することが可能となる。例えば、携帯端末に保存されている長い音声データの一部のみを変更する場合にも、その変更箇所のみを特定し、他の音声データに置換するなどして、簡単に編集、加工を行うことができる。
具体的には、本発明の音声編集装置、音声編集方法および音声編集プログラムを、音声認識装置、標準パターン作成方法および標準パターン作成プログラムとして活用することによって、既存の標準パターンを活用して多様な標準パターンを効率的に作成することができる。
また、パターンマッチング処理を用いて変更箇所を自動特定すること、すなわち、音声認識装置がもつ音声認識機能を、標準パターンの作成にも活用することによって、現実の生活に役立つ有用な標準パターンを、非常に効率的に作成することが可能となる。したがって、音声認識可能な語彙を、柔軟かつ迅速に拡大することが可能となる。
また、音声認識によって携帯端末の動作の制御を行う場合や、入力音声信号をテキストデータに変換して電子メールを効率的に作成するような場合には、内容の一部だけが異なる、一群の音声の音声認識が重要となると考えられる。したがって、既存の標準パターンの一部を改変して新規な標準パターンを豊富化していくという、本発明の音声認識装置で採用する手法は極めて有効である。
また、流用元の既存の標準パターンにおける変更箇所も、パターンマッチング処理を利用して簡単に指定することができる。すなわち、本発明では、音声認識装置がもつマッチング処理機能を標準パターンの作成にも利用するため、ハードウエアの追加等も最小限に抑えられる。よって、実現が容易であり、コスト面でも有利となる。
また、流用元の既存の標準パターンデータベースを更新するための更新用音声データとしては、ユーザが入力する音声の音声や、既存の標準パターンから切り取って得られる音声データや、あるいは、既存の標準パターン自体の音声データを利用することができる。多様な音声データを利用できるため、新しい標準パターンの作成処理が効率化される。
本発明の音声編集装置(音声認識装置)は、音声データのカスタマイズが容易であり、小型化や低コストという特徴をもつため、電子機器への搭載に適する。したがって、電気機器の多機能化の進展に寄与する。
また、本発明の音声編集方法(標準パターン作成方法を含む)によれば、無理なく、最小限の労力で、現実に役立つ新規な音声データ(標準パターン)を、効果的に増やすことが可能となる。
また、本発明の音声編集プログラムによれば、多様な電気機器において、音声データ(標準パターンを含む)の編集を容易かつ安価に行うことが可能となる。
本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。
本出願は、2005年5月27日出願の日本特許出願(特願2005−156205)に基づくものであり、その内容はここに参照として取り込まれる。
本発明は、携帯端末などを利用して、音声データを簡単に編集することを可能とし、特に、音声認識装置として利用した場合には、音声認識可能な語彙を、柔軟かつ効率的に豊富化することができるという効果を奏し、したがって、例えば、各種の電気機器や携帯端末(携帯電話端末やPDA等)に搭載される小型、軽量かつ安価な音声編集装置(音声認識装置を含む)に用いて好適である。
本発明の音声認識装置(音声編集装置を音声認識の用途に利用したもの)の概要を説明するためのブロック図 図1の本発明の音声認識装置における、既存の標準パターンを流用して標準パターンを新規に作成し、標準パターンデータベースの内容を更新する処理の主要な手順を説明するためのフロー図 本発明の音声認識装置を内蔵する携帯電話端末のユーザが、新規に標準パターンを作成する場合の主要な手順を説明するための図 (a)〜(d)は、図3に示される手順に従って標準パターンが作成される場合の、具体的な信号処理の内容を示す図 本発明の音声認識装置の具体的な構成の一例を示すブロック図 図5の音声認識装置の各部の動作手順ならびにデータ(信号)の授受の手順を示すシーケンス図 メール受信時の表示設定を変更しますという標準パターンを音声認識により選択し、その選択された標準パターンからメール受信時のという部分を削除して新たな標準パターンを作成する場合の手順を示す図 (a)〜(d)は、図7に示される手順に従って標準パターンが作成される場合の、具体的な信号処理の内容を示す図 本発明の音声認識装置の具体的な構成の他の例(図7,図8に記載の制御を行う例)を示すブロック図 図9の音声認識装置の各部の動作手順ならびにデータ(信号)の授受の手順を示すシーケンス図 本発明の音声認識装置を搭載する携帯電話端末の外観構成を示す斜視図 図11の携帯電話端末の内部構成を示すブロック図
符号の説明
10 音響分析部
12 特徴パラメータ抽出部
14 変更箇所特定部
16 変更箇所を特定するためのマッチング処理を行うパターンマッチング部
18 標準パターン作成部
20 標準パターンデータベース更新部
22 本来の音声認識のためのパターンマッチング処理を行うパターンマッチング部
24 標準パターンデータベース(音声認識辞書ファイル)
26 制御部
28 表示インタフェース
30 表示部
32 流用元標準パターン抽出部
34 流用元標準パターンを抽出するためのマッチング処理を行うパターンマッチング部
550 携帯電話端末
700 無線部
701 音声コーデック
702 デジタル信号処理部
703 変換器
704 スピーカ
705 マイク
706 制御部
707 音声記録部
708 音響分析部
709 特徴パラメータ抽出部
710 変更箇所特定部
711 本来の音声認識のための、および、流用元標準パターンを特定するためのマッチング処理を行うパターンマッチング部
712 標準パターン作成部
713 標準パターンデータベース更新部
714 標準パターンデータベース(音声認識辞書ファイル)
715 メディアインタフェース部
717 テキスト変換部
1000 携帯電話端末
1002 上部筐体
1004 下部筐体
1006 表示部
1008 操作キー
1010 挿入口
1012 記録メディア
AN アンテナ

Claims (14)

  1. 標準パターンとしての複数の音声データを保存するデータベースと、
    前記データベースに標準パターンとして保存されている前記複数の音声データから第1の音声データを選択する選択部と、
    変更箇所としての第2の音声データをユーザが入力する音声入力部と、
    前記第1の音声データのうち、前記第2の音声データと一致した部分を変更箇所として特定する変更箇所特定部と、
    前記第1の音声データのうち、前記変更箇所特定部により特定された前記変更箇所を削除した音声データを新規の標準パターンとして前記データベースに追加するデータベース更新部と、
    前記データベースに保存された標準パターンにもとづいて音声認識を行う音声認識部と、
    を有する音声認識装置。
  2. 標準パターンとしての複数の音声データを保存するデータベースと、
    前記データベースに標準パターンとして保存されている前記複数の音声データから第1の音声データを選択する選択部と、
    変更箇所としての第2の音声データを、また置き換えデータとしての第3の音声データを各々ユーザが入力する音声入力部と、
    前記第1の音声データのうち、前記第2の音声データと一致した部分を変更箇所として特定する変更箇所特定部と、
    前記第1の音声データのうち、前記変更箇所特定部により特定された前記変更箇所に前記第3の音声データを置き換えた音声データを新規の標準パターンとして前記データベースに追加するデータベース更新部と、
    前記データベースに保存された標準パターンにもとづいて音声認識を行う音声認識部と、
    を有する音声認識装置。
  3. 前記音声認識部による認識に基づき、携帯電話端末の動作を制御することを特徴とする請求項1または請求項2に記載の音声認識装置。
  4. 前記携帯電話端末の動作は、バイブレータの起動であることを特徴とする請求項記載の音声認識装置。
  5. 前記携帯電話端末の動作は、当該携帯電話端末における表示設定の変更であることを特徴とする請求項記載の音声認識装置。
  6. 前記携帯電話端末の動作は、当該携帯電話端末の電源オフであることを特徴とする請求項記載の音声認識装置。
  7. 前記携帯電話端末の動作は、電子メールの文面作成であることを特徴とする請求項記載の音声認識装置。
  8. 標準パターンとしての複数の音声データを保存するデータベースから第1の音声データを選択するステップと、
    変更箇所としての第2の音声データをユーザが入力するステップと、
    前記第1の音声データのうち、前記第2の音声データと一致した部分を変更箇所として特定するステップと、
    前記第1の音声データのうち、前記変更箇所を削除した音声データを新規の標準パターンとして前記データベースに追加するステップと、
    前記データベースに保存された標準パターンにもとづいて音声認識を行うステップと、
    を有する音声認識方法。
  9. 標準パターンとしての複数の音声データを保存するデータベースから第1の音声データを選択するステップと、
    変更箇所としての第2の音声データを、また置き換えデータとしての第3の音声データを各々ユーザが入力するステップと、
    前記第1の音声データのうち、前記第2の音声データと一致した部分を変更箇所として特定するステップと、
    前記第1の音声データのうち、前記変更箇所に前記第3の音声データを置き換えた音声データを新規の標準パターンとして前記データベースに追加するステップと、
    前記データベースに保存された標準パターンにもとづいて音声認識を行うステップと、
    を有する音声認識方法。
  10. 前記音声認識を行うステップによる認識に基づき、携帯電話端末の動作を制御することを特徴とする請求項または請求項に記載の音声認識方法。
  11. 前記携帯電話端末の動作は、バイブレータの起動であることを特徴とする請求項10記載の音声認識方法。
  12. 前記携帯電話端末の動作は、当該携帯電話端末における表示設定の変更であることを特徴とする請求項10記載の音声認識方法。
  13. 前記携帯電話端末の動作は、当該携帯電話端末の電源オフであることを特徴とする請求項10記載の音声認識方法。
  14. 前記携帯電話端末の動作は、電子メールの文面作成であることを特徴とする請求項10記載の音声認識方法。
JP2006535901A 2005-05-27 2006-05-25 音声認識装置及び音声認識方法 Expired - Fee Related JP5094120B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006535901A JP5094120B2 (ja) 2005-05-27 2006-05-25 音声認識装置及び音声認識方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005156205 2005-05-27
JP2005156205 2005-05-27
JP2006535901A JP5094120B2 (ja) 2005-05-27 2006-05-25 音声認識装置及び音声認識方法
PCT/JP2006/310490 WO2006126649A1 (ja) 2005-05-27 2006-05-25 音声編集装置、音声編集方法、および、音声編集プログラム

Publications (2)

Publication Number Publication Date
JPWO2006126649A1 JPWO2006126649A1 (ja) 2008-12-25
JP5094120B2 true JP5094120B2 (ja) 2012-12-12

Family

ID=37452072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006535901A Expired - Fee Related JP5094120B2 (ja) 2005-05-27 2006-05-25 音声認識装置及び音声認識方法

Country Status (5)

Country Link
US (1) US8438027B2 (ja)
EP (1) EP1884923A4 (ja)
JP (1) JP5094120B2 (ja)
CN (1) CN101185115B (ja)
WO (1) WO2006126649A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689417B2 (en) * 2006-09-04 2010-03-30 Fortemedia, Inc. Method, system and apparatus for improved voice recognition
JP5240457B2 (ja) * 2007-01-16 2013-07-17 日本電気株式会社 拡張認識辞書学習装置と音声認識システム
US8666751B2 (en) 2011-11-17 2014-03-04 Microsoft Corporation Audio pattern matching for device activation
US9082403B2 (en) * 2011-12-15 2015-07-14 Microsoft Technology Licensing, Llc Spoken utterance classification training for a speech recognition system
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
CN103730032B (zh) * 2012-10-12 2016-12-28 李志刚 多媒体数据控制方法和系统
US9159319B1 (en) * 2012-12-03 2015-10-13 Amazon Technologies, Inc. Keyword spotting with competitor models
US9886947B2 (en) * 2013-02-25 2018-02-06 Seiko Epson Corporation Speech recognition device and method, and semiconductor integrated circuit device
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
US9263042B1 (en) 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
GB2535766B (en) * 2015-02-27 2019-06-12 Imagination Tech Ltd Low power detection of an activation phrase
US9685061B2 (en) * 2015-05-20 2017-06-20 Google Inc. Event prioritization and user interfacing for hazard detection in multi-room smart-home environment
JP6531776B2 (ja) * 2017-04-25 2019-06-19 トヨタ自動車株式会社 音声対話システムおよび音声対話方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204394A (ja) * 1991-09-19 1993-08-13 Xerox Corp ワードスポッティング法
JPH06161704A (ja) * 1992-11-17 1994-06-10 Hitachi Ltd 音声インタフェース・ビルダ・システム
JPH0926799A (ja) * 1995-07-12 1997-01-28 Aqueous Res:Kk 音声認識装置
JPH11202886A (ja) * 1998-01-13 1999-07-30 Hitachi Ltd 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体
JP2006243575A (ja) * 2005-03-07 2006-09-14 Nec Corp 音声書き起こし支援装置およびその方法ならびにプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
JP2943473B2 (ja) 1992-01-14 1999-08-30 松下電器産業株式会社 音声認識方法
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
JPH11190997A (ja) 1997-12-25 1999-07-13 Omron Corp 音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置
CN1182694C (zh) * 1998-01-16 2004-12-29 皇家菲利浦电子有限公司 用于电话机的自动拨号的话音命令系统
JP2000276184A (ja) 1999-03-24 2000-10-06 Toppan Printing Co Ltd 音声カードモジュール及び音声カード供給システム並びに方法
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
US7120582B1 (en) * 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US6473734B1 (en) * 2000-03-27 2002-10-29 Motorola, Inc. Methodology for the use of verbal proxies for dynamic vocabulary additions in speech interfaces
JP3881155B2 (ja) 2000-05-17 2007-02-14 アルパイン株式会社 音声認識方法及び装置
US20020120451A1 (en) * 2000-05-31 2002-08-29 Yumiko Kato Apparatus and method for providing information by speech
JP5093963B2 (ja) * 2000-09-08 2012-12-12 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 置換コマンドを有する音声認識方法
JP2002358095A (ja) * 2001-03-30 2002-12-13 Sony Corp 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP2003188948A (ja) 2001-12-19 2003-07-04 Nec Corp 携帯端末装置
JP2004153306A (ja) 2002-10-28 2004-05-27 Sharp Corp 携帯端末装置及びセキュリティシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204394A (ja) * 1991-09-19 1993-08-13 Xerox Corp ワードスポッティング法
JPH06161704A (ja) * 1992-11-17 1994-06-10 Hitachi Ltd 音声インタフェース・ビルダ・システム
JPH0926799A (ja) * 1995-07-12 1997-01-28 Aqueous Res:Kk 音声認識装置
JPH11202886A (ja) * 1998-01-13 1999-07-30 Hitachi Ltd 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体
JP2006243575A (ja) * 2005-03-07 2006-09-14 Nec Corp 音声書き起こし支援装置およびその方法ならびにプログラム

Also Published As

Publication number Publication date
WO2006126649A1 (ja) 2006-11-30
EP1884923A1 (en) 2008-02-06
CN101185115B (zh) 2011-07-20
US20090106027A1 (en) 2009-04-23
EP1884923A4 (en) 2009-06-03
CN101185115A (zh) 2008-05-21
JPWO2006126649A1 (ja) 2008-12-25
US8438027B2 (en) 2013-05-07

Similar Documents

Publication Publication Date Title
JP5094120B2 (ja) 音声認識装置及び音声認識方法
EP1600018B1 (en) Multimedia and text messaging with speech-to-text assistance
JP4263614B2 (ja) リモートコントロール装置及び情報端末装置
EP2005319B1 (en) System and method for extraction of meta data from a digital media storage device for media selection in a vehicle
US7870142B2 (en) Text to grammar enhancements for media files
US7689417B2 (en) Method, system and apparatus for improved voice recognition
EP2311031B1 (en) Method and device for converting speech
US20110112837A1 (en) Method and device for converting speech
Husnjak et al. Possibilities of using speech recognition systems of smart terminal devices in traffic environment
TW201926079A (zh) 雙向語音翻譯系統、雙向語音翻譯方法和電腦程式產品
JP2008529101A (ja) 移動通信装置の音声語彙を自動的に拡張するための方法及び装置
KR20010076508A (ko) Mp3 플레이어 겸용 휴대폰에서 음성 인식에 의한 선곡방법
US20060190260A1 (en) Selecting an order of elements for a speech synthesis
AU760377B2 (en) A method and a system for voice dialling
CN105913841A (zh) 语音识别方法、装置及终端
EP2224426B1 (en) Electronic Device and Method of Associating a Voice Font with a Contact for Text-To-Speech Conversion at the Electronic Device
CN100527223C (zh) 用于生成语音的设备,可连接到或含有该设备的装置以及相关的计算机程序产品
KR20220050342A (ko) 음성 합성 서비스를 제공하는 장치, 단말기 및 방법
CN116895276A (zh) 车辆及其控制方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061006

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071120

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120918

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees