JP5094120B2

JP5094120B2 - 音声認識装置及び音声認識方法

Info

Publication number: JP5094120B2
Application number: JP2006535901A
Authority: JP
Inventors: 利之寺西; 浩司幡野
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-05-27
Filing date: 2006-05-25
Publication date: 2012-12-12
Anticipated expiration: 2026-05-25
Also published as: WO2006126649A1; EP1884923A1; CN101185115B; US20090106027A1; EP1884923A4; CN101185115A; JPWO2006126649A1; US8438027B2

Description

本発明は、音声編集装置及び音声編集方法に関する。

記録した音声の音声データを編集する場合、従来は、編集者が再生された音声を聞きながら編集点を特定し、切り出しを行っている。

また、特許文献５に開示される従来技術では、音声カード（音声をカードに記録し、そのカードの表面に写真等を貼付したもの）を作成する際に、高度な音声編集プログラムを利用してコンピュータの画面上の編集用ウインドウに、記録した音声を表示し、編集者が、マウス等のツールを用いて音声の部分的な削除、切り出し、結合等を行っている。

また、音声認識装置では、音声認識辞書としての音声標準パターン（以下、単に標準パターンという）を用いて音声認識を行うが、音声認識可能な語彙を増やすためには、標準パターンを増やす必要がある。この際、既存の標準パターンの一部を削除したり、切り出したりすることによって標準パターンを作成することがあり、これも、音声データの編集の一形態である。

以下、音声データの編集について、音声認識装置における音声認識辞書としての標準パターンの編集を例にとって説明する。

音声認識装置は、認識対象の音声を所定の時間間隔（フレーム）で区切り、各フレームの音声波形の特徴を表す多次元の特徴パラメータ（ケプストラム）を抽出し、この特徴パラメータの時系列パターンを、音声認識装置に蓄積されている標準パターン（音声認識の基本単位となる語彙の特徴パラメータの時系列パターン）と比較し、両者の類似度を判定し、最も類似度の高い語彙を認識結果として出力する。

ケプストラム（ｃｅｐｓｔｒｕｍ：特徴パラメータ）は、音声信号を２０mｓｅｃ〜４０ｍｓｅｃ程度の時間窓で区切り、その時間窓に対応する音声信号に対して、フーリエ変換（ＦＦＴ）による音響分析を行い、その絶対値（振幅スペクトル）の対数を求め、その対数の周波数スペクトルに対して、逆フーリエ変換（ＩＤＦＴ）を行うことによって得られる。

すなわち、ＦＦＴによって得られる音声の周波数スペクトルは、その音声の大まかな形状の情報（音韻性を示す包絡情報）と、細かい振動成分の情報（声の高さを示す微細構造情報）を含んでいるが、音声認識では、音声の音韻性を抽出すること（つまり、その声が何という音であるかを推定すること）が重要であり、後者の微細構造情報は、あまり役立たない。そこで、対数処理後の周波数スペクトルについて、再度フーリエ変換処理（ＩＤＦＴ）を行い、包絡情報と微細構造情報とを分離する。

すなわち、ＩＤＦＴによって、ケフレンシー軸（横軸）の左側に包絡情報が集中し、一方、ケフレンシー軸の右側に微細構造情報が集中し、これにより、包絡情報と微細構造情報を効率的に分離することができる。これがケプストラムである。なお、音響分析として、ＦＦＴの他に、ＬＰＣ（線形予測符号化）が用いられることがある。

また、人間の聴覚特性に合わせてケフレンシー軸を対数的に変換することをメル化と呼び、メル化されたケプストラムは、メルケプストラムと呼ばれる。

本明細書では、「ケプストラム」は、「メルケプストラム」を含む広い概念の用語として使用する。また、本明細書では、「ケプストラム」を、主として「特徴パラメータ」と表示する。また、「ケプストラム」や「特徴パラメータ」を、「音声データ（上位概念の用語）」と記載する場合もある。なお、上位概念の用語としての「音声データ」には、上記の音声の特徴パラメータ（ケプストラム）の他、「音声をテキスト化したもの」、「音声データ（波形データそのもの）が含まれるものとする。

音声認識装置には、認識辞書としての多数の標準パターン（すなわち、認識単位となる語彙の一つ一つについてのケプストラム：その語彙の音声の特徴を示す特徴パラメータ）が用意されている。認識可能な語彙を増やすためには、標準パターンを豊富化しなければならない。

従来、音声認識に用いられる標準パターンを新規に作成する方法としては、単語のテキストを入力することによって、その単語の標準パターンを自動的に作成する方法（特許文献１）が提案されている。

また、標準パターンの代わりに音素片辞書を使用する提案もなされている（特許文献２）。この特許文献２には、不特定話者用の認識単語辞書を作成するために、少数の話者が発音した単語の特徴パラメータを、多数の話者の音声に基づいて作成された汎用性のある標準パターンと比較して類似度を求めて音素片辞書を作成し、この音素片辞書を用いて音声認識を行う技術が開示されている。

また、近年、音声認識装置を携帯端末（携帯電話端末等）に搭載し、音声認識を利用して携帯端末の動作を制御できるようにする技術が提案されている（例えば、特許文献３参照）。

また、音声認識装置とテキスト変換装置を携帯端末（携帯電話端末、ＰＤＡ等）に搭載し、入力音声をテキストデータに自動変換できるようにする技術も提案されている（特許文献４）。

省スペースや低コストが厳しく求められる携帯端末には、簡単な認識辞書（標準パターン）を備えた比較的安価な音声認識装置を搭載するのが現実的である。この場合、携帯端末のユーザが、自己の現実の利用状況に合わせて、適応的に認識辞書（標準パターン）を更新する（すなわち、認識辞書のカスタマイズを行う）ことになる。

携帯端末に搭載される認識辞書（標準パターン）のカスタマイズに際し、その手続や機器操作が面倒であると、携帯端末のユーザの利便性が損なわれることになる。したがって、携帯端末のユーザに過度の負担をかけることなく、快適に認識辞書（標準パターン）を拡張していくことを可能とする技術が求められる。また、例えば、携帯端末上で、長い音声データの一部を編集する必要性が生じた場合等には、長い音声を最初から入力するのはきわめて効率が悪いため、このような場合に、音声データを簡単に編集する技術が求められる。
特開平１１−１９０９９７号公報特開平５−１８８９８８号公報特開２００４−１５３３０６号公報特開２００３−１８８９４８号公報特開２０００−２７６１８４号公報

特許文献１に記載される標準パターン（音声データ）作成方法では、標準パターンとして登録される全ての語彙を、テキスト入力（文字入力）する必要がある。一般に、テキスト入力は面倒である。特に、携帯端末の入力キーは小さく、テキスト入力には不向きである。

また、特許文献２に記載される標準パターン（音声データ）作成方法は、追加したい認識語句を正確に全て発声する必要があるため、特に長い語句を追加する場合に、手間がかかり、間違えてしまう可能性がある。

また、特許文献５に記載される音声編集方法では、音声データの編集の際に、高度な専用の音声編集プログラムを使用するが、このような高度かつ専用の音声編集プログラムを携帯端末に搭載するのはコスト面からみても困難である。また、専用の音声編集プログラムによる音声データの編集には、マウス等を用いた複雑な機器操作が必要であり、この点でも携帯端末への適用が困難である。また、専用の音声編集プログラムによって音声データを編集すると、編集時間が長くなりがちである。

本発明は、このような考察に基づいてなされたものであり、音声データの編集を簡易かつ安価に行えるようにし、例えば、携帯端末上でも音声データの編集を手軽に行えるようにすることを目的とする。そして、本発明の具体的な目的の一つは、音声認識装置に登録される標準パターンを容易に豊富化し、これによって、音声認識可能な語彙を効率的に拡張できる音声認識装置及び音声認識方法を提供することである。

本発明の音声認識装置は、標準パターンとしての複数の音声データを保存するデータベースと、前記データベースに標準パターンとして保存されている前記複数の音声データから第１の音声データを選択する選択部と、変更箇所としての第２の音声データをユーザが入力する音声入力部と、前記第１の音声データのうち、前記第２の音声データと一致した部分を変更箇所として特定する変更箇所特定部と、前記第１の音声データのうち、前記変更箇所特定部により特定された前記変更箇所を削除した音声データを新規の標準パターンとして前記データベースに追加するデータベース更新部と、前記データベースに保存された標準パターンにもとづいて音声認識を行う音声認識部と、を有する。

新規の音声データをゼロからつくるのではなく、既存の音声データを編集して作るようにし、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所を自動的に特定すること（すなわち、音声認識装置がもつ音声認識機能を、音声データの編集にも活用すること）によって、音声データの編集作業が簡単化される。すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の切り出しや結合等が可能となる。例えば、「私は、２００５年４月１日にＡ社に入社しました」という既存の音声データが携帯端末内に保存されているとする。この既存の音声データを編集する際に、携帯端末の表示部に「切り出す箇所を発音して下さい」という表示をなし、これに応答して、ユーザが「２００５年４月１日に」と発声し、その音声が、携帯端末に入力される。すると、既存の音声データと新たに入力された音声とのパターンマッチングが行われて、一致する箇所が切り取られる。その結果として、「私は、Ａ社に入社しました」と言う音声を取得することができる。また、本発明は、既存の音声データを複数の文章に分割するために使用することもできる。例えば「１０時から会議です。場所は第一会議室です」と言う既存の音声データが携帯端末に保存されており、携帯端末の表示部上に「分割したい音声箇所を発音してください」と表示し、ユーザが、「場所は」と音声し、この音声は、新規の音声入力として携帯端末に取り込まれ、既存の音声データとパターンマッチングによる比較がなされる。この結果、既存の音声データの「場所は」の前で文章が分割され、その結果として、「１０時から会議です。場所は第一会議室です」という音声データは、「１０時から会議です」と「場所は第一会議室です」という２つの音声データに分割される。このように、本発明によれば、携帯端末などを利用して、音声データを簡単に編集することが可能となる。この結果、多様な音声データを容易に、効率的に、かつ安価に作成することが可能となる。

また、本発明の音声認識装置では、標準パターンとしての複数の音声データを保存するデータベースと、前記データベースに標準パターンとして保存されている前記複数の音声データから第１の音声データを選択する選択部と、変更箇所としての第２の音声データを、また置き換えデータとしての第３の音声データを各々ユーザが入力する音声入力部と、
前記第１の音声データのうち、前記第２の音声データと一致した部分を変更箇所として特定する変更箇所特定部と、前記第１の音声データのうち、前記変更箇所特定部により特定された前記変更箇所に前記第３の音声データを置き換えた音声データを新規の標準パターンとして前記データベースに追加するデータベース更新部と、前記データベースに保存された標準パターンにもとづいて音声認識を行う音声認識部と、を有する。

新規の標準パターンをゼロからつくるのではなく、既存の標準パターンを活用して作るようにし、また、パターンマッチング処理を用いて変更箇所を自動特定すること（音声認識装置がもつ音声認識機能を、標準パターンの作成にも活用すること）によって、現実の生活に役立つ有用な標準パターンを、非常に効率的に作成することができる。ここで、携帯端末に音声認識装置を搭載し、音声認識による携帯端末の動作の制御を実施する場合を想定すると、定型的な音声パターンをもつ語彙群が必要となる可能性が高い。例えば、公共の場所において流れる音声アナウンスを音声認識して、携帯電話の電源を自動的にオフさせる場合を考える。公共の場所としては、「映画館内」、「病院内」、「駅構内」、「建物内」等があるから、まず、「館内では携帯の電源をオフにして下さい」という映画館の館内アナウンスを音声認識できるようにし（つまり「館内では携帯の電源をオフにして下さい」という語彙についての標準パターンを携帯端末の音声認識辞書に登録しておく）、次に、その標準パターンを流用して、「館内では」という箇所を、「病院内では」、「駅構内では」、「建物内では」という音声データに置換すれば、電源の自動オフ制御に用いる標準パターンを、効率的に豊富化することができる。また、流用元の標準パターンの、「館内では」という箇所を変更する場合、音声認識用のマッチング処理を用いれば、変更箇所は、簡単な手続で自動的に指定することができる。例えば、携帯端末のユーザがマイクから「館内では」という音声を入力し、流用元の標準パターン（「館内では携帯の電源をオフにして下さい」という語彙の標準パターン）とのマッチングを行い、例えば、マッチした部分（つまり、「館内では」という部分）を変更箇所とすることにより、流用元の標準パターンのどこを変更するのかを容易に指定することができる。そして、更新用の音声データ（「病院内では」、「駅構内では」、「建物内では」）を、更新用音声データ（「館内では」）と置換する処理を行うことで、電源の自動オフ制御に用いる、多数の新たな標準パターンを効率的に作成することができる。

本発明の音声認識装置は、既存の機能や音声データを最大限に活用するため、無駄が少なく、小型化や低価格化に適しており、携帯電話端末にも搭載することができる。また、使用する音声データのカスタマイズも容易であることから、携帯端末のユーザは、一日の生活の種々の場面で、音声編集機能（標準パターンの編集機能を含む）を自由に、手軽に利用することができる。したがって、携帯端末の多機能や高機能化が進展し、携帯端末の利用価値が向上する。

また、本発明の音声認識方法は、標準パターンとしての複数の音声データを保存するデータベースから第１の音声データを選択するステップと、変更箇所としての第２の音声データをユーザが入力するステップと、前記第１の音声データのうち、前記第２の音声データと一致した部分を変更箇所として特定するステップと、前記第１の音声データのうち、前記変更箇所を削除した音声データを新規の標準パターンとして前記データベースに追加するステップと、前記データベースに保存された標準パターンにもとづいて音声認識を行うステップと、を含む。

また、本発明の音声認識方法は、標準パターンとしての複数の音声データを保存するデータベースから第１の音声データを選択するステップと、変更箇所としての第２の音声データを、また置き換えデータとしての第３の音声データを各々ユーザが入力するステップと、前記第１の音声データのうち、前記第２の音声データと一致した部分を変更箇所として特定するステップと、前記第１の音声データのうち、前記変更箇所に前記第３の音声データを置き換えた音声データを新規の標準パターンとして前記データベースに追加するステップと、前記データベースに保存された標準パターンにもとづいて音声認識を行うステップと、を含む。

これによって、無理なく、最小限の労力で、現実に役立つ新規な音声データ（標準パターン）を、効果的に増やすことが可能となる。

本発明の音声認識装置では、新規の音声データ（音声認識用辞書としての標準パターンを含む）をゼロからつくるのではなく、既存の音声データを編集して作るようにし、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所を自動的に特定すること、すなわち、音声認識装置がもつ音声認識機能を、音声データの編集にも活用することによって、音声データの編集作業が簡単化される。

すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の削除や置き換えが可能となり、音声データの編集を簡単に行えるようになる。

したがって、本発明によれば、携帯端末などを利用して、音声データを簡単に編集することが可能となり、この結果、多様な音声データを容易に、効率的に、かつ安価に作成することが可能となる。例えば、携帯端末に保存されている長い音声データの一部のみを変更する場合にも、その変更箇所のみを特定し、他の音声データに置換するなどして、簡単に編集、加工を行うことができる。

具体的には、本発明の音声認識装置および音声認識方法によって、既存の標準パターンを活用して多様な標準パターンを効率的に作成することができる。また、パターンマッチング処理を用いて変更箇所を自動特定すること、すなわち、音声認識装置がもつ音声認識機能を、標準パターンの作成にも活用することによって、現実の生活に役立つ有用な標準パターンを、非常に効率的に作成することが可能となる。したがって、音声認識可能な語彙を、柔軟かつ迅速に拡大することが可能となる。

また、音声認識によって携帯端末の動作の制御を行う場合や、入力音声信号をテキストデータに変換して電子メールを効率的に作成するような場合には、内容の一部だけが異なる、一群の音声の音声認識が重要となると考えられる。したがって、既存の標準パターンの一部を改変して新規な標準パターンを豊富化していくという、本発明の音声認識装置で採用する手法は極めて有効である。

また、流用元の既存の標準パターンにおける変更箇所も、パターンマッチング処理を利用して簡単に指定することができる。すなわち、本発明では、音声認識装置がもつマッチング処理機能を標準パターンの作成にも利用するため、ハードウエアの追加等も最小限に抑えられる。よって、実現が容易であり、コスト面でも有利となる。

また、流用元の既存の標準パターンデータベースを更新するための更新用音声データとしては、ユーザが入力する音声の音声や、既存の標準パターンから切り取って得られる音声データや、あるいは、既存の標準パターン自体の音声データを利用することができる。多様な音声データを利用できるため、新しい標準パターンの作成処理が効率化される。

本発明の音声認識装置は、音声データのカスタマイズが容易であり、小型化や低コストという特徴をもつため、電子機器への搭載に適する。したがって、電気機器の多機能化の進展に寄与する。

また、本発明の音声認識方法（標準パターン作成方法を含む）によれば、無理なく、最小限の労力で、現実に役立つ新規な音声データ（標準パターン）を、効果的に増やすことが可能となる。

次に、本発明の実施形態について、図面を参照して説明する。

本発明は、広義の音声編集装置や音声編集方法に関するものであり、純粋な音声の編集、加工はもちろんのこと、他の種々の用途に利用することができる。

例えば、本発明の音声編集装置を、音声認識の用途に使用する（すなわち、音声認識装置として利用する）ことによって、音声認識辞書としての標準パターンを効率的に拡大することが可能となる。

以下の説明では、まず、第１の実施形態〜第４の実施形態にて、本発明の音声編集装置を、音声認識装置における標準パターンの豊富化のために利用する場合の例について説明し、そして、第５の実施形態において、本発明の音声編集装置を、音声認識の用途を離れて、純粋な音声編集、加工の用途に使用した場合について説明することにする。

（第１の実施形態）
図１は、本発明の音声認識装置（本発明の音声編集装置を音声認識の用途に利用したもの）の概要を説明するためのブロック図である。

図示されるように、本発明の音声認識装置は、音響分析部１０と、特徴パラメータ抽出部１２と、変更箇所特定部１４（変更箇所の特定のために使用されるパターンマッチング部１６をもつ）と、標準パターン作成部１８と、標準パターンデータベース更新部２０と、パターンマッチング処理を実行するパターンマッチング部（音声認識装置の本来の音声認識を行う音声認識部）２２と、標準パターンデータベース（音声認識辞書ファイル）２４と、を有する。ここで、標準パターンデータベース２４に保存されているデータの形式は、「特徴パラメータ（ケプストラム）」の他、「音声をテキスト化したもの（文字列としての辞書データ）」、「音声データ（波形データ自体）のいずれであってもよいが、以下の説明では、標準パターンデータベース２４には、標準パターンとして、「特徴パラメータ（ケプストラム）」が保存されているものとして説明を行う。

なお、図１では、変更箇所特定部１４内のパターンマッチング部１６と、音声認識装置の本来の音声認識を実施するパターンマッチング部（音声認識部）２２と、を別々に記載しているが、これに限定されるものではなく、共通のパターンマッチング部を状況に応じて使い分ける構成であってもよい。この点は、以下の実施形態でも同様である。

図１の音響分析部１０は、入力音声信号を、２０mｓｅｃ〜４０ｍｓｅｃ程度の時間窓で区切り、その時間窓に対応する音声信号についてフーリエ変換（ＦＦＴ）を行う。

また、特徴パラメータ抽出部１２は、音響分析結果の絶対値（すなわち周波数スペクトルの振幅）の対数を求め、その対数の周波数スペクトルに対して、逆フーリエ変換（ＩＤＦＴ）を行い、さらにメル化を行ってメルケプストラム（特徴パラメータ）を得る。なお、特徴パラメータは、変更箇所特定部１４および標準パターン作成部１８に送られる。

また、変更箇所特定部１４は、標準パターンデータベース２４から、流用元となる既存の標準パターンの特徴パラメータを取り出す。そして、パターンマッチング部１６を用いて、変更箇所特定用音声データ（例えば、ユーザがマイクを用いて入力する）の特徴パラメータと、流用元の既存の標準パターンの特徴パラメータとのマッチングを行い、マッチした箇所またはマッチしなかった箇所を変更箇所として特定する。そして、変更箇所の位置を示す変更箇所位置信号が、標準パターン作成部１８に送られる。

標準パターン作成部１８は、流用元の標準パターンについて、切り取り、削除、置換、結合といった編集処理を行い、新規の標準パターンを作成する。すなわち、流用元の標準パターンの変更箇所の音声データを切り取った後に残る音声データ（つまり、切り取った後の残余部分の音声の特徴パラメータ＝変更箇所の音声を削除して得られる音声の特徴パラメータ）、切り取った音声データ（つまり、切り出した音声の特徴パラメータ）、変更箇所の音声データを他の音声データ（例えば、ユーザがマイクを用いて入力する置換用音声データ）に置き換えて得られる音声データ（つまり、置換後の語彙の音声の特徴パラメータ）、および、切り取った音声データの冒頭または末尾に他の音声データを結合することによって得られる音声データ（つまり、結合処理後の語彙の音声の特徴パラメータ）、の少なくとも一つを、新しい標準パターンとする。

標準パターンデータベース更新部２０は、標準パターンデータベース（音声認識辞書ファイル）２４を更新する。更新の内容としては、「置換」と「追加」の二種類がある。すなわち、「置換」による更新の場合は、新たに作成された標準パターンを、流用元の既存の標準パターンに置き換える。また、「追加」の場合は、新たに作成された標準パターンを、標準パターンデータベース２４に追加する。この場合、流用元の既存の標準パターンと新規の標準パターンは併存する。

図２は、図１の本発明の音声認識装置における、既存の標準パターンを流用して標準パターンを新規に作成し、標準パターンデータベースの内容を更新する処理の主要な手順を説明するためのフロー図である。図２中では、説明の便宜上、音声データ（音声の特徴パラメータ）の時系列パターンを、アルファベットで表現している。

まず、流用元の既存の標準パターンの変更箇所の特定処理を実行する（ステップＳ１００）。

すなわち、変更箇所特定部１４内のパターンマッチング部１６にて、変更箇所特定用音声データ（「ｃｄ」とする）と、流用元の標準パターン（「ａｂｃｄｅｆ」とする）とのパターンマッチング処理を実施する（ステップＳ１０１）。そして、マッチングした部分（「ｃｄ」）を変更箇所とする（ステップＳ１０２）。あるいは、マッチングしなかった部分（ａｂｅｆ）を変更箇所とする（ステップＳ１０３）。

次に、標準パターン作成部１８にて、標準パターンの新規作成処理を実施する（ステップＳ２００）。

すなわち、ステップＳ１００（Ｓ１０２、S１０３）にて特定された変更箇所から、音声データを切り取る（ステップＳ２０１，２０２）。

切り取った音声データ「ａｂｅｆ」や「ｃｄ」自体を、新しい標準パターンとすることができる（Ｓ３０１，Ｓ３０２）。「ａｂｅｆ」は、ステップＳ１０１にてマッチした部分の以外の部分を切り出したものであり、これは、流用元の標準パターンからマッチした部分の音声データを削除して得られる音声データに等しい。

次に、置換処理や結合処理を行う（ステップＳ２０１、Ｓ２０４）。ステップＳ２０１では、ステップ１０２で特定された変更箇所の音声データ「ｃｄ」を、更新用音声データ「ＱＲＳ」によって置換する。また、ステップＳ２０４では、ステップＳ２０１にて切り取った音声データ（「ｃｄ」）の冒頭あるいは末尾に、更新用音声データ「ＱＲＳ」を結合させる。ここで、更新用音声データ「ＱＲＳ」は、マイクから入力される入力音声の音声データ、あるいは、Ｓ２０１，Ｓ２０２で切り取った音声データ、あるいは、既存の標準パターンの音声データそのもの、のいずれかである。

すなわち、ステップＳ２０３では、「ａｂ○○ｅｆ」の○○の部分を、「ＱＲＳ」で置換し、「ａｂＱＲＳｅｆ」とする（流用元の標準パターンの「ｃｄ」を「ＱＲＳ」で置換した形態となる）。

また、ステップＳ２０４では、「ｃｄ」の冒頭あるいは末尾に「ＱＲＳ」を結合して、「ＱＲＳｃｄ」あるいは「ｃｄＱＲＳ」とする。

新たに作成された、「ｃｄ（切り取ったデータ）」、「ａｂｅｆ（マッチした部分の音声データを削除して得られるデータ」、「ａｂＱＲＳｅｆ（置換により得られるデータ）」、「ＱＲＳｃｄ」あるいは「ｃｄＱＲＳ（結合により得られるデータ）」のいずれかを、新しい標準パターンとすることができる。

次に、標準パターンデータベース更新部２０が、標準パターンデータベース２４の更新処理を実施する（ステップＳ３００）。更新の内容としては、「置換処理（ステップＳ３０１）」と「追加処理（ステップＳ３０２）」の二種類がある。

すなわち、「置換」による更新の場合（ステップＳ３０１）では、新たに作成された標準パターンを、流用元の既存の標準パターンに置き換える。「追加」の場合（ステップＳ３０２）では、新たに作成された標準パターンを、標準パターンデータベース２４に追加する。この場合、流用元の既存の標準パターンと新規の標準パターンは併存する。

このように、本発明では、新規の標準パターンをゼロからつくるのではなく、既存の標準パターンを活用して作るようにし、また、パターンマッチング処理を用いて変更箇所を自動特定すること（音声認識装置がもつ音声認識機能を、標準パターンの作成にも活用すること）によって、有用な標準パターンを、非常に効率的に作成することが可能となる。したがって、音声認識可能な語彙を、柔軟かつ迅速に拡大することができる。

（第２の実施形態）
本実施形態では、電車内のアナウンスを音声認識するために、標準パターンを豊富化する場合を例にとり、音声認識装置の構成と動作、標準パターンの作成手順について、より具体的に説明する。

例えば、電車通勤をしているサラリーマンは、仕事に疲れて居眠りをしてしまい、降車駅（例えば、渋谷駅とする）で降車できないことがある。この場合、そのサラリーマンの携帯電話端末に音声認識装置を搭載し、「まもなく渋谷です」という車内アナウンスを音声認識し、この音声認識を契機としてバイブレータを起動し、振動によって居眠りをしているサラリーマンを目覚めさせることができれば、降り忘れを防止することができ、便利である。ただし、そのサラリーマンが、「横浜」においても頻繁に下車する場合には、「まもなく横浜です」というアナウンスを音声認識してバイブレータを起動することも必要となる。

この場合、「まもなく渋谷です」という標準パターンが音声認識装置に登録されているのであれば、この標準パターンを流用し、「渋谷」を「横浜」に置換することができれば、必要な標準パターンを、効率的に作成することができる。

図３は、本発明の音声認識装置を内蔵する携帯電話端末のユーザが、新規に標準パターンを作成する場合の主要な手順を説明するための図である。

図示されるように、最初に、「まもなく渋谷です」という車内アナウンスを、携帯電話端末５５０のマイク２を用いて録音し、その車内アナウンスの音声について、音響分析を経て特徴パラメータを抽出し、標準パターンとして携帯電話端末５５０内に登録しておく（ステップＳ１）。

次に、携帯電話端末５５０の表示部（液晶ディスプレイ等）３０に、「変更したい部分を発声してください」という案内メッセージが表示される（ステップＳ２）。

次に、ユーザ（Ｐ）が、「渋谷」と発音する。この「渋谷」という音声は、携帯電話端末５５０のマイク２を介して携帯電話端末５５０内に取り込まれ、音響分析を経て特徴パラメータが抽出される。そして、流用元の標準パターン、すなわち「まもなく渋谷です」という語彙の特徴パラメータと、変更箇所を特定するための音声データ「渋谷」の特徴パラメータのマッチング処理がなされ、ここでは、マッチングした箇所が変更箇所として特定される（ステップＳ４）。

次に、携帯電話端末５５０の表示部３０に、「置き換える文字を発声してください」という案内メッセージが表示される（ステップＳ５）。

ユーザ（Ｐ）は、「横浜」と発音し、この「横浜」という音声は、携帯電話端末５５０のマイク２を介して携帯電話端末５５０内に取り込まれ、音響分析を経て特徴パラメータが抽出される。

ここで、誤った標準パターンの作成を防ぐため、新規作成する標準パターン（「まもなく横浜です」）を、携帯電話端末５５０の表示部３０上に表示し、ユーザＰに、これでよいかを問い合わせる。ユーザ（Ｐ）は、画面の確認後、「はい（ｙｅｓ）」を選択する（ステップＳ７）。

すると、「まもなく横浜です」という語彙の特徴パラメータからなる標準パターンが自動的に作成され、標準パターンデータベース２４が更新される（ステップＳ８）。すなわち、ステップＳ４で特定された変更箇所の音声データ（「渋谷」の特徴パラメータ）を、「横浜」の特徴パラメータと置換し、これによって、「まもなく横浜です」という語彙の特徴パラメータからなる標準パターンが作成され、その新規作成された標準パターンが、標準パターンデータベース（図１の参照符号２４）に追加されることになる。

図４（ａ）〜（ｄ）は、図３に示される手順に従って標準パターンが作成される場合の、具体的な信号処理の内容を示す図である。

図４（ａ）では、流用元の標準パターンの音声データ「ツギワシブヤデス」と、変更箇所特定用音声データ「シブヤ」とのパターンマッチング処理が実施される。

図４（ｂ）では、流用元の標準パターンのうちの「シブヤ」の部分が変更箇所であることが特定されており（２つの太い矢印で変更箇所が特定されている）、また、「シブヤ」が、「ヨコハマ」に置換されることが示されている。

図４（ｃ）では、「ツギハヨコハマデス」という更新音声（すなわち、新規作成された標準パターン）が、音声記憶部（図１の参照符号２４）に蓄積されている既存の標準パターン群（「ツギノエキワヨコハマデス」、「モウスグヨコハマデス」、「マモナクヨコハマデス」）に追加される。

図４（ｄ）は、更新後の標準パターン群を示している。

図５は、本発明の音声認識装置の具体的な構成の一例を示すブロック図である。図５において、図１と共通する部分には、共通の符号を付してある。

図５では、図１の構成に、マイク（ＭＩＣ）２と、録音音声蓄積部４と、音声認識装置の動作を統括的に制御する制御部２６と、表示インタフェース２８と、表示部３０と、が追加されている。音声認識装置の基本的な動作は、図１を用いて先に説明したとおりである。

図６は、図５の音声認識装置の各部の動作手順ならびにデータ（信号）の授受の手順を示すシーケンス図である。

まず、制御部２６は、表示部３０上に流用元音声の選択画面を表示させ、ユーザに、流用元となる音声データを選択させる（ステップＳ４００）。この場合は、図３で説明したように、「まもなく渋谷です」という車内アナウンスの音声が予め録音され、録音音声蓄積部４に蓄積されているため、これを選択する。

次に、音響分析部１０が、音声分析を行い（ステップＳ４０１）、特徴パラメータ抽出部１２が、特徴パラメータを抽出する（ステップＳ４０２）。抽出された特徴パラメータは、変更箇所特定部１４および標準パターン作成部１８に送られる（ステップＳ４０３，Ｓ４０４）。

また、制御部２６は、表示部３０上に、変更箇所を特定するための音声の入力を促す案内メッセージを表示する（ステップＳ４０５）。続いて、音響分析（ステップＳ４０６）、特徴パラメータ抽出（ステップＳ４０７）を経て、特徴パラメータが抽出され、特徴パラメータは、変更箇所特定部１４および標準パターン作成部１８に送られ（ステップＳ４０８，Ｓ４０９）、変更箇所が特定される（Ｓ４１０）。変更箇所の位置を示す変更箇所位置信号は、標準パターン作成部１８に送られる（Ｓ４１１）。

次に、ユーザが、変更箇所に置換するための更新用音声（「横浜」）を入力する（Ｓ４１２）。すると、音響分析（Ｓ４１３）、特徴パラメータ抽出（Ｓ４１４）、特徴パラメータの標準パターン作成部１８への送信（Ｓ４１５）を経て、新しい標準パターンが作成される（Ｓ４１６）。

新しく作成された標準パターンは、標準パターンデータベース更新部２０に送られ（ステップＳ４１７）、また、表示部３０にも送られ（Ｓ４１８）、ユーザによる更新確認を経て（ステップＳ４１９）、標準パターンデータベース２４が更新される（ステップＳ４２０）。

（第３の実施形態）
本実施形態では、本発明の音声認識装置が搭載された携帯電話端末における設定（例えば、電子メール受信時の設定）を、ユーザの音声によって制御する場合を想定し、この制御に必要な標準パターンを新規作成する場合の手順について説明する。

携帯電話端末のユーザは、電子メールの着信時において表示部に表示される画面や、着信時に出力される着信音を自身の好みに合わせて、適宜、変更することができ、また、受信メールを蓄積するフォルダも自由に選択することができる。

通常は、メール着信時の画面や着信音の変更などは、入力キーの操作によって行われるが、携帯電話端末の操作キーは小さいために、操作がかなりむずかしい。ここで、キー操作に代えて、音声入力によってメール着信時の画面や着信音の変更などを行えるようになれば、携帯電話端末の利便性が向上する。

また、「表示設定」という用語は、広い意味を持っており、電子メール時の表示設定の他に、電話の待ち受け画面の表示設定や、ゲームのダウンロード時の表示設定等が含まれる。携帯電話端末の設定を変更する場合には、まず、「表示設定を変更する」という上位概念のメニュー項目を変更し、次に、「メール受信時の表示設定を変更する」という具体的なメニュー項目を選択するのが普通である。

ここで、上位概念のメニュー項目である「表示設定の変更」を、音声により選択する場合には、「表示設定を変更します」というユーザの音声を認識する必要があるため、「表示設定を変更します」という語彙の音声の標準パターンを予め登録しておく必要がある。

ここで、仮に、携帯電話端末内には、「メール受信時の表示設定を変更します」という標準パターンが登録されているとすると、「メール受信時の」という部分の音声データを削除すれば、「表示設定を変更します」という標準パターンを簡単に作成することができる。

図７は、メール受信時の表示設定を変更しますという標準パターンを音声認識により選択し、その選択された標準パターンからメール受信時のという部分を削除して新たな標準パターンを作成する場合の手順を示す図である。

図７に示すように、携帯電話端末５５０の表示部３０に、「変更したい認識語彙を発声してください」という案内メッセージが表示される（ステップＳ１）。

ユーザ（Ｐ）は、流用元の標準パターンを検索するためのキーワードである「メール受信」を発声する（ステップＳ２）。

すると、音声認識がなされ、「メール受信」とマッチングする部分をもつ標準パターンがすべて抽出される。すなわち、標準パターンとして登録されている語彙の中から、キーワード「メール受信」を含む語彙（「１．メール受信時の表示設定を変更します」、「２．メール受信時の音設定を変更します」、「３．メール受信時の振分け設定をします」）が、流用元の標準パターンの候補として抽出され、表示部３０に表示される（ステップＳ４）。

このように、流用元の標準パターンを選択する場合にも、音声認識装置が本来的に有している音声認識機能を活用することにより、流用元の標準パターンを効率的に見つけ出すことができる。

次に、ユーザ（Ｐ）は、「１．メール受信時の表示設定を変更します」を選択する（ステップＳ５）。

次に、携帯電話端末５５０の表示部３０には、「変更したい部分を発声してください」という案内メッセージが表示される（ステップＳ６）。

ユーザ（Ｐ）は、「メール受信時の」と発音する。この音声は、携帯電話端末５５０内に取り込まれ、音響分析、特徴パラメータの抽出がなされ、ステップＳ５で選択された標準パターン「メール受信時の表示設定を変更します」の特徴パラメータとのマッチングがなされ、この結果として、変更箇所が、「メール受信時の」という箇所であることが特定される（ステップＳ８）。

次に、携帯電話端末５５０の表示部３０上には、標準パターンをどのように変更するのかを問い合わせる案内メッセージが表示される。すなわち、「１．対象部分削除」と、「２．対象部分変更」という２つの選択肢が表示される（ステップＳ９）。

ここでは、ユーザ（Ｐ）は、「１．対象部分削除」を選択する。すると、表示部３０には、「削除」を本当に行ってよいかを問い合わせる確認画面が表示され、ユーザ（Ｐ）が「はい（ｙｅｓ）」を選択すると、「表示設定を変更します」という所望の語彙についての標準パターンが新規に作成される（ステップＳ１１）。

流用元の標準パターンから「メール受信時の」という音声データが削除されて新たな標準パターンが作成されたものであるが、この処理は、流用元の標準パターンである「メール受信時の表示設定を変更します」という音声データから、変更箇所の音声データ（「メール受信時の」）という音声データを切り取り、切り取った後の残余の部分（「表示設定を変更します」）を新たな標準パターンとするのと等価である。

図８（ａ）〜（ｄ）は、図７に示される手順に従って標準パターンが作成される場合の、具体的な信号処理の内容を示す図である。

図８（ａ）では、流用元の標準パターンの音声データ「メールジュシンジノヒョウジセッテイヲヘンンコウシマス」が既に特定されており、この標準パターンと、変更箇所特定用音声データ「メールジュシンジノ」とのパターンマッチング処理が実施される。

図８（ｂ）では、流用元の標準パターンのうちの「メールジュシンジノ」の部分が変更箇所であることが特定される（２つの太い矢印で変更箇所が特定されている）。

図８（ｃ）では、流用元の標準パターンの「メールジュシンジノヒョウジセッテイヲヘンンコウシマス」から、「メールジュシンジノ」が削除され、「ヒョウジセッテイヲヘンンコウシマス」という新規の標準パターンが作成されている。

この新たに作成された標準パターンが、標準パターンデータベース（図１の参照符号２４）に登録されている標準パターン群（すなわち、「メールジュシンジノヒョウジセッテイヲヘンコウシマス」、「メールジュシンジノオトセッテイヲヘンコウシマス」、「メールジュシンジノフリワケセッテイヲヘンコウシマス」）に新規に追加される。

図８（ｄ）は、更新後の標準パターン群を示している。

図９は、本発明の音声認識装置の具体的な構成の他の例（図７，図８に記載の制御を行う例）を示すブロック図である。図９において、図１，図５と共通する部分には、同じ参照符号を付してある。

図９では、図５の構成から、録音音声蓄積部４を削除すると共に、流用元標準パターン抽出部３２（パターンマッチング部３４を含み、入力されたキーワードと合致するパターンをもつ既存の標準パターンのすべてを、流用元標準パターンの候補として抽出する機能をもつ）を追加した構成となっている。

なお、流用元標準パターン抽出部３２のパターンマッチング部３４は、標準パターン作成部２０から渡される既存の標準パターンの特徴パラメータと、特徴パラメータ抽出部１２から送られてくるキーワード「メール受信」の特徴パラメータと、を比較してマッチング度を判定し、入力されたキーワードと合致するパターンをもつ既存の標準パターンのすべてを、流用元標準パターンの候補として抽出する。

また、図９の音声認識装置の基本的な動作は、図１、図５を用いて先に説明したとおりである。

図１０は、図９の音声認識装置の各部の動作手順ならびにデータ（信号）の授受の手順を示すシーケンス図である。

まず、制御部２６は、表示部３０上に流用元音声を選択ためのキーワード音声の入力を促す案内画面を表示し、ユーザは、キーワード（「メール受信」）を音声入力する（ステップＳ６００）。

続いて、音響分析（ステップＳ６０１）、特徴パラメータ抽出（ステップＳ６０２）が行われ、入力されたキーワード（「メール受信」）の音声の特徴パラメータと、既存の標準パターン群の各々の特徴パラメータとを比較してマッチング処理が実施され（ステップＳ６０３）、マッチングする部分をもつ標準パターンがすべて抽出される。

そして、抽出された標準パターンの情報が表示部３０に送られ（ステップＳ６０４）、表示部３０上に抽出された標準パターンの内容がすべて表示され、ユーザは、流用元となる標準パターン（「メール受信時の表示設定を変更します」）を選択する（ステップＳ６０５）。これにより、流用元の標準パターンが特定される。

続いて、標準パターンデータベース２４に記憶されている、流用元の標準パターンの特徴パラメータが、変更箇所特定部１４および標準パターン作成部１８に送られる（ステップＳ６０６，Ｓ６０７）。

次に、ユーザが、変更箇所を特定するための音声（すなわち「メール受信時の」）を入力する（ステップＳ６０８）。

続いて、音響分析がなされ（ステップＳ６０９）、また、特徴パラメータ抽出がなされ（ステップＳ６１０）、抽出された特徴パラメータが、変更箇所特定部１４および標準パターン作成部１８に送られる（ステップＳ６１１，Ｓ６１２）。

変更箇所特定部１４では、パターンマッチングによって変更箇所を特定する（ステップＳ６１３）。また、変更箇所位置を示す信号は、標準パターン作成部１８に送られる（ステップＳ６１４）。

次に、ユーザが、削除を行うことを選択する（ステップＳ６１５）。これに伴い、流用元の標準パターン「受信時の画面設定を変更します」から、「受信時の」が削除されて、新しい標準パターン（「画面設定を変更します」）が作成される（ステップＳ６１６）。

そして、新規に作成された標準パターンの情報が表示部３０に送られ、ユーザに、その新しく作成された標準パターンを、標準パターンデータベース２４に追加してもよいかを確認する（Ｓ６１８）。

ユーザによって、新規作成された標準パターンの追加が承認されると、標準パターンデータベース更新部２０は、新しく作成された標準パターンを標準パターンデータベース２４に追加する。これによって、標準パターンデータベース（音声認識辞書ファイル）が更新される（ステップＳ６２０）。

（第４の実施形態）
本実施形態では、本発明の音声認識装置を搭載する携帯電話端末の構成と動作について説明する。

図１１は、本発明の音声認識装置を搭載する携帯電話端末の外観構成を示す斜視図である。

図示されるように、携帯電話端末１０００は、アンテナ（ＡＮ）と、上部筐体１００２と、下部筐体１００４と、表示部１００６と、操作キー１００８と、標準パターンを記憶している記録媒体（記録メディア）１０１２を挿入するための挿入口１０１０と、スピーカ７０４と、マイク７０５と、を有している。

図１２は、図１１の携帯電話端末の内部構成を示すブロック図である。

図示されるように、この携帯電話端末１０００は、アンテナＡＮと、無線部７００と、音声コーデック７０１と、デジタル信号処理部７０２と、Ａ／Ｄ変換器およびＤ／Ａ変換器７０３と、スピーカ７０４と、マイク７０５と、制御部７０６と、音声記録部７０７と、音響分析部７０８と、特徴パラメータ抽出部７０９と、変更箇所特定部７１０（パターンマッチング部７１１を含む）と、標準パターン作成部７１２と、標準パターンデータベース更新部７１３と、標準パターンデータベース７１４と、スタンダードな標準パターンを記録している記録メディア１０１２とのデータインタフェースとして機能するメディアインタフェース部７１５と、パターンマッチング部（音声認識装置の本来の音声認識を行い、また、必要に応じて、流用元の標準パターンの候補を抽出するためにも使用される）７１６と、音声／テキスト変換部７１７と、を備える。

このような構成をもつ携帯電話端末では、ユーザの音声による携帯電話端末の動作の制御や設定の変更が可能である。

また、音声／テキスト変換部７１７によって、入力された音声を自動的にテキストに変換することもでき、これによって、電子メールの作成の手間が軽減される。

先に説明したように、携帯電話端末の動作を音声にて制御する場合には、一つの定型的な音声パターンのうち、一部を別の音声に置換した多数の音声の認識が重要となる。

例えば、公共の場所において流れる音声アナウンスを音声認識して、携帯電話の電源を自動的にオフさせる場合を考えると、公共の場所としては、「映画館内」、「病院内」、「駅構内」、「建物内」等があるから、まず、「館内では携帯の電源をオフにして下さい」という映画館の館内アナウンスを音声認識できるようにし（つまり「館内では携帯の電源をオフにして下さい」という語彙についての標準パターンを携帯端末の音声認識辞書に登録しておく）、次に、その標準パターンを流用して、「館内では」という箇所を、「病院内では」、「駅構内では」、「建物内では」という音声データに置換すれば、電源の自動オフ制御に用いる標準パターンを、効率的に豊富化することができる。

また、音声／テキスト変換を利用して、音声入力によって電子メールの文面を作成する場合も、同様に、一つの定型的な音声パターンのうち、一部を別の音声に置換した多数の音声の認識が重要となると考えられる。

携帯電話端末の電子メールは、友人等の親しい仲間との連絡がほとんどであり、特に、待ち合わせの調整等に頻繁に用いられる。

例えば、「月曜日の１８時に渋谷のハチ公前で会いましょう」という標準パターンを用意しておき、「月曜日」という部分を、他の曜日に置換したり、「１８時」という部分を他の時刻に変更したり、あるいは、「渋谷のハチ公前」という部分を他の場所に変更することにより、現実に頻繁に使用する電子メールの文面に対応する、音声認識用の標準パターンを効率的に作成することができる。

このように、既存の標準パターンの一部を改変して新規な標準パターンを豊富化していくという、本発明の音声認識装置で採用する手法は、携帯端末に搭載される音声認識装置の認識辞書の拡張手法として、極めて有効である。

（第５の実施形態）
前掲の実施形態では、音声認識装置（本発明の音声編集装置を音声認識の用途に使用したもの）を例にとって説明したが、本発明の音声編集装置はいろいろな用途に利用でき、例えば、純粋に音声の加工や編集にも活用できる。

すなわち、例えば、携帯端末のユーザが、携帯端末内に、自己の音声（かなり長い音声）を記録しているとする（その音声データは、例えば、添付メールに埋め込んで友人に送付するために用意されているものである）。ここで、何らかの理由により、その記録されている長い音声データの一部だけを加工する必要性が生じた場合に、もう一度、最初から長い音声の入力を繰り返すのは効率が悪い。

この場合に、パターンマッチングを利用して変更箇所を特定し、その変更部分の音声データを他の音声データに変更できれば、非常に効率的に新規な音声データを作成することができる。

つまり、新規の音声データをゼロからつくるのではなく、既存の音声データを編集して作るようにし、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所を自動的に特定すること（すなわち、音声認識装置がもつ音声認識機能を、音声データの編集にも活用すること）によって、音声データの編集作業が簡単化される。すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の切り出しや結合等が可能となる。

例えば、「私は、２００５年４月１日にＡ社に入社しました」という既存の音声データが携帯端末内に保存されているとする。この既存の音声データを編集する際に、携帯端末の表示部に「切り出す箇所を発音して下さい」という表示をなし、これに応答して、ユーザが「２００５年４月１日に」と発声し、その音声が、携帯端末に入力される。

すると、既存の音声データと新たに入力された音声とのパターンマッチングが行われて、一致する箇所が切り取られる。その結果として、「私は、Ａ社に入社しました」と言う音声を取得することができる。

また、本発明は、既存の音声データを複数の文章に分割するために使用することもできる。

例えば「１０時から会議です。場所は第一会議室です」と言う既存の音声データが携帯端末に保存されており、携帯端末の表示部上に「分割したい音声箇所を発音してください」と表示し、ユーザが、「場所は」と音声し、この音声は、新規の音声入力として携帯端末に取り込まれ、既存の音声データとパターンマッチングによる比較がなされる。

この結果、既存の音声データの「場所は」の前で文章が分割され、その結果として、「１０時から会議です。場所は第一会議室です」という音声データは、「１０時から会議です」と「場所は第一会議室です」という２つの音声データに分割される。

このような音声データの編集をする場合の構成は、前掲の実施形態にて説明した構成と同じである。すなわち、メルケプストラムデータによるマッチングにより、既存の音声データの変更箇所を特定することができる（ここで、メルケプストラムデータは、音声データを一定区間で音声分析して算出しているため、音声についても変更箇所の特定が可能である）。

そして、その変更箇所の情報に基づいて、音声の切り取り、新規に入力した音声の挿入、切り取った音声同士の結合などの編集を、自由に行うことができる。

このように、本実施形態における音声編集装置によれば、携帯端末などを利用して、音声データを簡単に編集することが可能となる。この結果、多様な音声データを容易に、効率的に、かつ安価に作成することが可能となる。

以上説明したように、本発明の音声編集装置では、新規の音声データ（音声認識用辞書としての標準パターンを含む）をゼロからつくるのではなく、既存の音声データを編集して作るようにし、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所を自動的に特定すること（すなわち、音声認識装置がもつ音声認識機能を、音声データの編集にも活用すること）によって、音声データの編集作業が簡単化される。

すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の切り出しや結合等が可能となり、音声データの編集を簡単に行えるようになる。

具体的には、本発明の音声編集装置、音声編集方法および音声編集プログラムを、音声認識装置、標準パターン作成方法および標準パターン作成プログラムとして活用することによって、既存の標準パターンを活用して多様な標準パターンを効率的に作成することができる。

また、パターンマッチング処理を用いて変更箇所を自動特定すること、すなわち、音声認識装置がもつ音声認識機能を、標準パターンの作成にも活用することによって、現実の生活に役立つ有用な標準パターンを、非常に効率的に作成することが可能となる。したがって、音声認識可能な語彙を、柔軟かつ迅速に拡大することが可能となる。

本発明の音声編集装置（音声認識装置）は、音声データのカスタマイズが容易であり、小型化や低コストという特徴をもつため、電子機器への搭載に適する。したがって、電気機器の多機能化の進展に寄与する。

また、本発明の音声編集方法（標準パターン作成方法を含む）によれば、無理なく、最小限の労力で、現実に役立つ新規な音声データ（標準パターン）を、効果的に増やすことが可能となる。

また、本発明の音声編集プログラムによれば、多様な電気機器において、音声データ（標準パターンを含む）の編集を容易かつ安価に行うことが可能となる。

本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。

本出願は、2005年5月27日出願の日本特許出願（特願2005−156205）に基づくものであり、その内容はここに参照として取り込まれる。

本発明は、携帯端末などを利用して、音声データを簡単に編集することを可能とし、特に、音声認識装置として利用した場合には、音声認識可能な語彙を、柔軟かつ効率的に豊富化することができるという効果を奏し、したがって、例えば、各種の電気機器や携帯端末（携帯電話端末やＰＤＡ等）に搭載される小型、軽量かつ安価な音声編集装置（音声認識装置を含む）に用いて好適である。

本発明の音声認識装置（音声編集装置を音声認識の用途に利用したもの）の概要を説明するためのブロック図図１の本発明の音声認識装置における、既存の標準パターンを流用して標準パターンを新規に作成し、標準パターンデータベースの内容を更新する処理の主要な手順を説明するためのフロー図本発明の音声認識装置を内蔵する携帯電話端末のユーザが、新規に標準パターンを作成する場合の主要な手順を説明するための図（ａ）〜（ｄ）は、図３に示される手順に従って標準パターンが作成される場合の、具体的な信号処理の内容を示す図本発明の音声認識装置の具体的な構成の一例を示すブロック図図５の音声認識装置の各部の動作手順ならびにデータ（信号）の授受の手順を示すシーケンス図メール受信時の表示設定を変更しますという標準パターンを音声認識により選択し、その選択された標準パターンからメール受信時のという部分を削除して新たな標準パターンを作成する場合の手順を示す図（ａ）〜（ｄ）は、図７に示される手順に従って標準パターンが作成される場合の、具体的な信号処理の内容を示す図本発明の音声認識装置の具体的な構成の他の例（図７，図８に記載の制御を行う例）を示すブロック図図９の音声認識装置の各部の動作手順ならびにデータ（信号）の授受の手順を示すシーケンス図本発明の音声認識装置を搭載する携帯電話端末の外観構成を示す斜視図図１１の携帯電話端末の内部構成を示すブロック図

符号の説明

１０音響分析部
１２特徴パラメータ抽出部
１４変更箇所特定部
１６変更箇所を特定するためのマッチング処理を行うパターンマッチング部
１８標準パターン作成部
２０標準パターンデータベース更新部
２２本来の音声認識のためのパターンマッチング処理を行うパターンマッチング部
２４標準パターンデータベース（音声認識辞書ファイル）
２６制御部
２８表示インタフェース
３０表示部
３２流用元標準パターン抽出部
３４流用元標準パターンを抽出するためのマッチング処理を行うパターンマッチング部
５５０携帯電話端末
７００無線部
７０１音声コーデック
７０２デジタル信号処理部
７０３変換器
７０４スピーカ
７０５マイク
７０６制御部
７０７音声記録部
７０８音響分析部
７０９特徴パラメータ抽出部
７１０変更箇所特定部
７１１本来の音声認識のための、および、流用元標準パターンを特定するためのマッチング処理を行うパターンマッチング部
７１２標準パターン作成部
７１３標準パターンデータベース更新部
７１４標準パターンデータベース（音声認識辞書ファイル）
７１５メディアインタフェース部
７１７テキスト変換部
１０００携帯電話端末
１００２上部筐体
１００４下部筐体
１００６表示部
１００８操作キー
１０１０挿入口
１０１２記録メディア
ＡＮアンテナ

Claims

標準パターンとしての複数の音声データを保存するデータベースと、
前記データベースに標準パターンとして保存されている前記複数の音声データから第１の音声データを選択する選択部と、
変更箇所としての第２の音声データをユーザが入力する音声入力部と、
前記第１の音声データのうち、前記第２の音声データと一致した部分を変更箇所として特定する変更箇所特定部と、
前記第１の音声データのうち、前記変更箇所特定部により特定された前記変更箇所を削除した音声データを新規の標準パターンとして前記データベースに追加するデータベース更新部と、
前記データベースに保存された標準パターンにもとづいて音声認識を行う音声認識部と、
を有する音声認識装置。
標準パターンとしての複数の音声データを保存するデータベースと、
前記データベースに標準パターンとして保存されている前記複数の音声データから第１の音声データを選択する選択部と、
変更箇所としての第２の音声データを、また置き換えデータとしての第３の音声データを各々ユーザが入力する音声入力部と、
前記第１の音声データのうち、前記第２の音声データと一致した部分を変更箇所として特定する変更箇所特定部と、
前記第１の音声データのうち、前記変更箇所特定部により特定された前記変更箇所に前記第３の音声データを置き換えた音声データを新規の標準パターンとして前記データベースに追加するデータベース更新部と、
前記データベースに保存された標準パターンにもとづいて音声認識を行う音声認識部と、
を有する音声認識装置。
前記音声認識部による認識に基づき、携帯電話端末の動作を制御することを特徴とする請求項１または請求項２に記載の音声認識装置。
前記携帯電話端末の動作は、バイブレータの起動であることを特徴とする請求項３記載の音声認識装置。
前記携帯電話端末の動作は、当該携帯電話端末における表示設定の変更であることを特徴とする請求項３記載の音声認識装置。
前記携帯電話端末の動作は、当該携帯電話端末の電源オフであることを特徴とする請求項３記載の音声認識装置。
前記携帯電話端末の動作は、電子メールの文面作成であることを特徴とする請求項３記載の音声認識装置。
標準パターンとしての複数の音声データを保存するデータベースから第１の音声データを選択するステップと、
変更箇所としての第２の音声データをユーザが入力するステップと、
前記第１の音声データのうち、前記第２の音声データと一致した部分を変更箇所として特定するステップと、
前記第１の音声データのうち、前記変更箇所を削除した音声データを新規の標準パターンとして前記データベースに追加するステップと、
前記データベースに保存された標準パターンにもとづいて音声認識を行うステップと、
を有する音声認識方法。
標準パターンとしての複数の音声データを保存するデータベースから第１の音声データを選択するステップと、
変更箇所としての第２の音声データを、また置き換えデータとしての第３の音声データを各々ユーザが入力するステップと、
前記第１の音声データのうち、前記第２の音声データと一致した部分を変更箇所として特定するステップと、
前記第１の音声データのうち、前記変更箇所に前記第３の音声データを置き換えた音声データを新規の標準パターンとして前記データベースに追加するステップと、
前記データベースに保存された標準パターンにもとづいて音声認識を行うステップと、
を有する音声認識方法。
前記音声認識を行うステップによる認識に基づき、携帯電話端末の動作を制御することを特徴とする請求項８または請求項９に記載の音声認識方法。
前記携帯電話端末の動作は、バイブレータの起動であることを特徴とする請求項１０記載の音声認識方法。
前記携帯電話端末の動作は、当該携帯電話端末における表示設定の変更であることを特徴とする請求項１０記載の音声認識方法。
前記携帯電話端末の動作は、当該携帯電話端末の電源オフであることを特徴とする請求項１０記載の音声認識方法。
前記携帯電話端末の動作は、電子メールの文面作成であることを特徴とする請求項１０記載の音声認識方法。