JP4017887B2

JP4017887B2 - 音声認識システムおよび音声ファイル記録システム

Info

Publication number: JP4017887B2
Application number: JP2002054368A
Authority: JP
Inventors: 直司松尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-02-28
Filing date: 2002-02-28
Publication date: 2007-12-05
Anticipated expiration: 2022-02-28
Also published as: US7979278B2; US20030163308A1; JP2003255982A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力された音声データを認識する音声認識システムと当該音声データを音声ファイルとして記録する音声ファイル記録システム及び方法に関するものである。特に、ＰＤＡ（Personal data assistance）などに用いられる携帯端末や電話システムなどにおける、音声メモ記録アプリケーションや音声電子メールアプリケーションなど、音声ファイルの記録処理を伴うアプリケーションに適用される。
【０００２】
【従来の技術】
ＰＤＡなどに用いられる携帯端末は、持ち運びするために小型化されており、入力デバイスとしてはペンや小型キーボードなどが装備されていることが多い。
【０００３】
ペンを用いたいわゆるペン入力の場合、電子パッドにペンのペン先を接触させ、電子パッド内に入力したいテキスト文字を書いたり、ペン入力用に決められた特別の記号を書いたり、クロスなど特別なジェスチャをペン先で描いたりすることにより情報を入力する。
【０００４】
電子パッドに入力したいテキスト文字そのものを書く場合、文字入力処理、文字認識処理に時間を要し、利用者が外出先や打ち合わせの席上などにおいて、簡単にメモ情報を記録する際に不便を感じることが多い。
【０００５】
電子パッドにペン入力用に決められた特別の記号を書いたり、クロスなど特別なジェスチャをペン先で描いたりする場合、利用者はこれら特別の記号やジェスチャを覚える必要があり、利用者が負担を感じることが多い。
【０００６】
そこで、ＰＤＡなどの携帯端末において、音声入力が注目されている。
【０００７】
音声入力が可能であれば、利用者は装備されたマイクロフォンを介して、メモしたい内容を音声で入力するのみで良く、音声を発することが許される状況であれば、簡単にメモ情報を音声入力により記録することができる。
【０００８】
図１２は、音声入力された音声メモ情報を音声ファイルとして記録する従来の音声メモ情報記録システムを説明する図である。
【０００９】
５１０はマイクロフォン、５２０は音声ファイル記録部、５３０は音声ファイル名入力部、５４０は音声ファイル再生部である。
【００１０】
利用者はマイクロフォン５１０を介して音声を入力する。音声はマイクロフォン５１０により音声データに変換される。音声データは音声ファイルとして音声ファイル記録部５２０に記録される。その際、音声ファイルに対してファイル名を付与する必要がある。利用者は自ら音声ファイル名入力部５３０を介して音声ファイルに対するファイル名を入力する。この音声ファイル名入力部５３０は、ＰＤＡが備えるペンによるペン入力インタフェースにより提供されることが想定される。
【００１１】
なお、利用者は自らによるファイル名の入力に代え、音声ファイル名入力部５３０が自動的に通し番号をファイル名として付けることは可能である。例えば、記録される順番に“ｖｏｉｃｅ.１”、“ｖｏｉｃｅ.２”と付与することになる。
【００１２】
また、従来のＰＤＡにおいて、音声入力を受け付け、入力された音声データを音声ファイルとして記録するのではなく、続いて音声認識処理を行ない、テキストファイルとして記録する音声メモ情報記録システムが知られている。
【００１３】
図１３は、従来技術における音声認識処理を伴う音声メモ情報記録システムを説明する図である。
【００１４】
６１０はマイクロフォン、６２０は音響解析部、６３０は音響モデル、６４０は音声認識辞書、６５０は照合認識部である。
【００１５】
利用者はマイクロフォン６１０を介して音声を入力する。音声はマイクロフォン６１０により音声データに変換される。音響解析部６２０により音声データに対する音響解析が行なわれ、音声データは音素単位に分割され、各音素単位で特徴量が抽出される。音響モデル６３０はモデルとなる各音素単位の特徴量を照合する際のデータ形式で格納している。例えば、ＨＭＭ（Hidden Markov Model）を用いた確率モデルが使われている。
【００１６】
照合認識部６５０は、音響解析部６２０から入力される音声データの音素単位の特徴量と、音響モデル６３０に格納されている各音素単位の特徴量データ、例えば、各音素単位の特徴量の確率モデルとを比較照合し、入力された音声データの音素単位を認識する。その際、照合認識部６５０は、さらに音声認識辞書６４０を参照し、認識した音素単位からなる情報が単語等、登録されている語として認識され得るものかを確認し、当該認識された単語を音声認識結果として出力する。
【００１７】
ここで、音声認識処理の性能を大きく左右するものは、辞書格納部６３０が格納する辞書の語彙である。利用者が入力した単語が辞書の語彙として含まれている場合にのみ、音声認識を行なうことができる。辞書の語彙数が増えれば音声認識処理を行なうことができる単語等の数が増えることとなるが、ＰＤＡのような小型携帯端末では辞書容量も制限され、さらに、語彙数が増えれば照合処理に要する時間がかかるので、辞書の語彙数は制限されている。
【００１８】
そこで、制限された語彙数で、利用者が入力する単語を効率良くカバーするため、辞書の語彙を利用者向けにカスタマイズしたユーザ辞書を用いることが広く行なわれている。
【００１９】
【発明が解決しようとする課題】
上記従来の音声メモ情報記録システムには以下の問題点がある。
【００２０】
まず、音声ファイル名を利用者自らのテキストデータの入力により与える場合には、音声ファイル名の利用者による付与が不便であるという問題点がある。
【００２１】
メモ情報自体を音声により簡単に入力しても、そのファイル名をペン入力やキーボードを用いた入力で行なうこととなれば、上記したように利用者にとって不便であり、利用者が負担を感じるという問題が生じる。
【００２２】
ファイル名はかならずテキストデータで与えなければならないので、ファイル名の付与を音声入力により行なう場合は、音声認識処理を行なう構成部分が必要となってしまう。
【００２３】
また、上記したように、音声ファイルのファイル名を自動的に通し番号により与える場合には、利用者自身がファイル名を入力するという負担は生じないが、多数の音声メモ情報を記録する場合、通し番号だけでは記録した音声ファイルの内容が分かりにくいため、音声メモ情報を参照する時点において、目的とする音声メモ情報がどの音声ファイルとして記録されているかを判別するのが困難であるという問題が生じる。
【００２４】
次に、音声入力された音声メモ情報を音声認識し、音声メモ情報をテキストファイルとして記録する音声メモ情報記録システムの場合、ユーザ辞書作成の利用者負担が大きいという問題がある。
【００２５】
従来技術の欄でも述べたように、音声認識の認識率を向上させるためには、少ない辞書容量で利用者による入力が想定される単語等を効率良くカバーする語彙を備えたユーザ辞書を用意する必要があるが、当該ユーザ辞書はユーザ自身が作成する必要があり、当該ユーザ辞書作成の利用者負担が生じる。当該ユーザ辞書の作成をペン入力やキーボードを用いた入力で行なうこととなれば、利用者にとっての負担はさらに大きくなる。
【００２６】
本発明は、上記問題を解決し、音声入力した音声メモ情報を音声ファイルとして記録し、かつ、音声メモ情報の内容を端的に把握できるファイル名を自動的に付与し、さらに、利用者による入力が想定される単語を効率良くカバーする語彙を備えたユーザ辞書を自動的に生成することができる音声ファイル記録システムを提供することを目的とする。
【００２７】
【課題を解決するための手段】
上記目的を達成するため、本発明の音声認識システムは、利用者が任意のアプリケーションに対して入力した情報から前記利用者の用語情報を抽出する利用者用語情報抽出部と、音声認識辞書を備え、前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する音声認識辞書管理部と、前記利用者の音声データを入力する音声入力部と、前記音声認識辞書を用いて前記音声データの音声認識を実行する音声認識部を備えることを特徴とする。
【００２８】
上記構成により、音声認識辞書を利用者が他のアプリケーションで用いた利用者用語情報により追加するので、利用者による入力が想定される単語を効率良くカバーする語彙を備えた音声認識辞書を自動的に生成することができる。
【００２９】
本発明の音声認識システムにおいて、前記音声認識辞書より多い語彙数を持つ他の音声認識辞書を用いて音声認識を実行する音声認識サーバをネットワーク上に備え、前記音声認識部による認識率または信頼度が所定値より低い場合、前記音声認識部がネットワークを介して前記音声データを前記音声認識サーバに対して送信し、前記音声認識サーバが前記音声データの音声認識処理を実行し、当該音声認識結果を前記音声入力部に送信することも可能である。
【００３０】
上記構成により、音声認識処理を音声認識サーバで実行させることができる。音声認識サーバ上で高精度な認識処理を実行すれば音声認識精度の向上を図ることができる。
【００３１】
なお、上記構成において、音声認識辞書管理部が音声認識サーバによる音声認識の結果に基づいて音声認識辞書の語彙を追加することとすれば、音声認識辞書の語彙を適切に更新して行くことができる。また、当該音声認識辞書の語彙の追加の実行を利用者が選択する選択部を備えることも好ましい。
【００３２】
次に、本発明の音声ファイル記録システムは、上記本発明の音声認識システムから音声認識結果を入力し、前記音声認識の結果に含まれる前記利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択する代表利用者用語情報選択部と、前記音声データを音声ファイルとして記録する音声ファイル記録部を備え、前記音声ファイル記録部が、前記音声ファイルのファイル名を、前記代表利用者用語情報に基づいて付与することを特徴とする。
【００３３】
上記構成によれば、代表利用者用語情報を基に音声メモ情報の内容を端的に把握できるファイル名を自動的に付与することができる。
【００３４】
次に、本発明の音声ファイル記録システムは、さらに、前記音声ファイルを格納する音声ファイルサーバをネットワーク上に備え、前記音声ファイル記録部が、前記音声ファイルと検索キーワードを前記ネットワークを介して前記音声ファイルサーバに転送して、当該音声ファイルサーバ内に前記音声ファイルを格納し、前記音声ファイル記録部内には、前記音声ファイルのファイル名と前記検索キーワードと前記音声ファイルサーバのネットワークアドレスを記録する。
【００３５】
上記構成により、音声ファイルを音声ファイルサーバ上に格納することができ、利用者が用いる携帯端末のメモリ容量を低減することができる。
【００３６】
なお、上記構成において、さらに、前記音声ファイル記録部による前記音声ファイルサーバへの前記音声ファイルの転送に先立ち、前記音声ファイルに記録されている音声データの一部を抽出し、前記音声ファイルのダイジェスト音声データを生成するダイジェスト音声データ生成部を備え、前記音声ファイル記録部は、前記音声ファイルのファイル名と前記検索キーワードと前記音声ファイルサーバのネットワークアドレスに加え、前記ダイジェスト音声データを記録することも好ましい。
【００３７】
上記構成により、当該ダイジェストデータを参照することにより、音声ファイルの内容を簡単に把握することができる。
【００３８】
次に、本発明の音声ファイル記録システムは、さらに、タイトルと本文からなる電子メールを生成する電子メール生成部を備え、前記電子メール生成部は、前記音声ファイル内の音声データの認識結果の内容を前記電子メールの本文とし、前記音声ファイル内の音声データの認識結果に含まれる前記利用者の用語情報を前記電子メールのタイトルとし、前記電子メールのファイル名を前記代表利用者用語情報に基づいて付与する。
【００３９】
上記構成によれば、音声ファイル内の音声データの認識結果の内容を電子メールとして生成することができ、内容を端的に把握できるファイル名を自動的に付与することができる。
【００４０】
また、前記電子メール生成部は前記音声ファイルのファイル名と前記音声ファイルサーバのネットワークアドレスを前記電子メールの本文とし、前記音声ファイル内の音声データの認識結果に含まれる前記利用者の用語情報を前記電子メールのタイトルとする。
【００４１】
上記構成によれば、当該電子メールを受領した者は、音声ファイルのファイル名と音声ファイルサーバのネットワークアドレスを得ることができ、音声ファイルにアクセスできる。
【００４２】
【発明の実施の形態】
以下、図面を参照しつつ、本発明の音声認識システムおよび音声認識方法、ならびに音声ファイル記録システムおよび音声ファイル記録方法の実施形態を説明する。
【００４３】
（実施形態１）
本発明の実施形態１として、ＰＤＡなどの携帯端末に適用され、音声認識辞書の語彙自動追加処理、音声認識処理、音声ファイル記録処理、音声ファイル名自動付与処理を行なう第１の音声ファイル記録システムを説明する。
【００４４】
図１は、実施形態１にかかる、本発明の第１の音声ファイル記録システムの構成を説明する図である。
【００４５】
１０は音声記録用途以外の用途を持つアプリケーション、２０は利用者用語情報抽出部、３０は音声認識辞書管理部、３１は音声認識辞書、４０は音声入力部、５０は音声認識部、６０は代表利用者用語情報選択部、７０は音声ファイル記録部である。
【００４６】
上記構成のうち、音声認識辞書３１の語彙自動追加処理に関する構成要素は、アプリケーション１０、利用者用語情報抽出部２０、音声認識辞書管理部３０である。音声認識処理に関する構成要素は、音声入力部４０、音声認識部５０、音声認識辞書３１である。音声ファイル記録処理と音声ファイル名自動付与処理に関する構成要素は、代表利用者用語情報選択部６０と音声ファイル記録部７０である。
【００４７】
アプリケーション１０は、音声記録用途以外の用途を持つ任意のアプリケーションである。当該アプリケーションの用途は特に限定されないが、利用者が良く用いる用語情報を効率良く収集するために、例えば、ＰＩＭ（Personal Information Manager：個人情報管理）で用いられるアプリケーションとする。
【００４８】
利用者用語情報抽出部２０は、利用者がアプリケーション１０に対して入力した情報から利用者の用語情報を抽出する部分である。
【００４９】
音声認識辞書管理部３０は、音声認識辞書３１を備え、利用者用語情報抽出部２０が抽出した利用者の用語情報を基に音声認識辞書３１の語彙を追加する部分である。
【００５０】
音声入力部４０は利用者の音声データを入力する部分である。例えば、マイクロフォンとサンプリング処理部を備え、入力された音声波動を電気信号に変換し、所定周波数でサンプリングしてサンプリングデータを入力する。
【００５１】
音声認識部５０は、音声認識辞書３１を用いて音声データの音声認識を実行する部分である。音声認識部５０は、音響解析機能と音響モデルと照合機能を備えている。音声認識部５０は、音響解析機能により音声データを音素単位に分割して特徴量を抽出し、照合機能により当該特徴量を用いた音素単位の照合および単語単位の照合を行なう。音素単位の照合は音響モデル内の特徴量との照合により行ない、単語単位の照合は音声認識辞書３１内の語彙との照合により行なう。
【００５２】
代表利用者用語情報選択部６０は、音声認識部５０による音声認識の結果に含まれる利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択する部分である。
【００５３】
音声ファイル記録部７０は、音声入力部４０から入力された音声データを音声ファイルとして記録する部分である。音声ファイル記録部７０は、音声ファイルのファイル名を、代表利用者用語情報選択部７０が選択した代表利用者用語情報に基づいて付与する。
【００５４】
次に、本発明の第１の音声ファイル記録システムの処理の流れを説明する。
【００５５】
まず、音声認識辞書３１の語彙自動追加処理の流れを図２を用いて説明する。当該音声認識辞書３１の語彙自動追加処理は音声認識処理に先立って行なわれるものとし、また、当該処理はその後も適宜実行され、音声認識辞書３１は自動的に更新される。自動更新は、例えば、一定期間ごとに行なったり、ＰＩＭアプリケーションが利用されて新たなデータが蓄積された場合に行なう。
【００５６】
以下の例ではアプリケーション１０はＰＩＭアプリケーションとする。ＰＩＭアプリケーションは、利用者のスケジュール管理データ、利用者本人の個人データ、利用者および取引先などの住所録データなど、種々の利用者に関する情報を管理するアプリケーションである。利用者は普段からＰＩＭアプリケーションを使用しているものとする。当該ＰＩＭアプリケーションを介して種々のデータが蓄積されている。
【００５７】
まず、利用者用語情報抽出部２０は、アプリケーション１０のデータに含まれている利用者の用語情報を抽出する（ステップＳ２０１）。
【００５８】
アプリケーション１０のデータに含まれる種々の用語が利用者用語情報として抽出される。このように利用者用語情報抽出部２０によってＰＩＭなどのアプリケーションから抽出される用語情報は、利用者が良く用いる用語情報や利用者が用いる独特の用語情報を含むものとなる。ここでは、利用者のスケジュール管理データから抽出された仕事の取引先の担当者の名前“Ａ”に注目して以下の説明を続ける。ここで、名前“Ａ”は通常の音声認識辞書には含まれていないような珍しい名前とする。
【００５９】
次に、音声認識辞書管理部３０は、利用者用語情報抽出部２０により抽出した利用者の用語情報により音声認識辞書の語彙を追加する（ステップＳ２０２）。
【００６０】
このように、当該利用者の用語情報により音声認識辞書３１の語彙を追加するので、音声認識辞書３１は利用者が良く用いると想定される用語情報や利用者が使う独特の用語情報をカバーするものとすることができる。また、用語情報を効率的に編纂できるので辞書容量を低減することができる。
【００６１】
図４は音声認識辞書の語彙を模式的に説明した図である。この例では、音声認識に利用される汎用的な語彙の集合である基本語彙部分と、利用者の用語情報を基に追加する利用者用語情報部分を備えている。ここでは、利用者用語情報抽出部２０が抽出した仕事の取引先の担当者の名前“Ａ”を含む種々の利用者の用語情報が当該利用者用語情報部分に追加される。
【００６２】
上記の処理の流れにより音声認識辞書３１を追加する。このように追加された音声認識辞書３１は音声認識処理に用いられる。
【００６３】
次に、音声認識処理の流れ、続いて、音声ファイル記録処理および音声ファイル名自動付与処理の流れを図３を用いて説明する。
【００６４】
まず、利用者は音声入力部４０を介して音声入力を行なう（ステップＳ３０１）。ここでは、音声メモとして、Ａさんに依頼する予定の仕事の内容に関する情報を音声で入力したとする。
【００６５】
次に、音声認識部５０は、音声入力部４０を介して入力された音声データに対する音声認識処理を実行する（ステップＳ３０２）。音声認識部５０は、音声認識辞書３１を用いて音声認識処理を行なう。
【００６６】
なお、音声認識辞書３１は上記の語彙自動追加処理が施され、語彙が追加されているので、利用者が良く用いる用語情報や利用者が用いる独特の用語情報をカバーするものとなっており、利用者から入力された音声データを効率良く認識できる。この例では名前“Ａ”は珍しい名前であり、音声認識辞書３１の基本語彙部分では認識することができないが、本発明では音声認識辞書３１は利用者用語情報部分を備えているので、名前“Ａ”を正しく認識することができる。
【００６７】
次に、代表利用者用語情報選択部６０は、音声認識部５０から認識結果を受け取り、その中から代表利用者用語情報を選択する（ステップＳ３０３）。代表利用者用語情報は、音声認識の結果に含まれる代表的な利用者の用語情報となる。例えば、仕事の取引先の担当者の名前“Ａ”が代表利用者用語情報として選択される。
【００６８】
次に、音声ファイル記録部７０は、音声ファイルのファイル名を代表利用者用語情報に基づいて付与し、当該音声ファイルを記録する（ステップＳ３０４）。ここで、代表利用者用語情報は音声ファイルの内容に含まれる代表的な利用者の用語情報であるので、当該代表利用者用語情報を基にファイル名を自動的に付与すれば、利用者にとって音声ファイルの内容を想起し、把握しやすいファイル名となる。
【００６９】
以上、本発明の実施形態１にかかる、音声ファイル記録システムを用いれば、音声認識辞書を利用者用語情報により追加し、利用者による入力が想定される単語を効率良くカバーする語彙を備えたものとでき、入力された音声データを音声ファイルとして記録し、その内容を端的に把握できるファイル名を自動的に付与することができる。
【００７０】
なお、上記構成のうち、利用者用語情報抽出部２０、音声認識辞書管理部３０、音声認識辞書３１、音声入力部４０、音声認識部５０を別途、第１の音声認識システムとして構成することができ、また、音声認識辞書の語彙自動追加処理、音声認識処理を当該第１の音声認識システムの処理とすることができる。
【００７１】
（実施形態２）
本発明の実施形態２にかかる第２の音声ファイル記録システムは、ネットワーク上にある音声認識サーバを利用し、入力された音声データを音声認識サーバに送り、音声認識処理を音声認識サーバで実行させ、その結果を受け取ることにより、ＰＤＡなどの携帯端末上での音声認識処理の負荷を低減させ、音声ファイル記録処理およびファイル名自動付与処理を行なうものである。。
【００７２】
図５は、本発明の第２の音声ファイル記録システムの構成を説明する図である。
【００７３】
第２の音声ファイル記録システムは、実施形態１に示した第１の音声ファイル記録システムと同様、音声記録用途以外の用途を持つ任意のアプリケーション１０、利用者用語情報抽出部２０、音声認識辞書管理部３０、音声認識辞書３１、音声入力部４０、音声認識部５０、代表利用者用語情報選択部６０、音声ファイル記録部７０を備え、さらに、音声認識切換部８０、音声データ転送部９０を備えている。また、ネットワーク１００上に音声認識サーバ２００を備えている。
【００７４】
音声認識切換部８０は、音声認識部５０による音声認識率や信頼度をチェックし、音声認識率や信頼度が閾値より低い場合に、音声認識部５０による音声認識処理を中止し、音声ファイル記録システム上での音声認識処理に代え、音声認識サーバ２００による音声認識処理に切り換える部分である。
【００７５】
音声データ転送部９０は、音声入力部４０を介して音声認識部５０に一時記憶されている音声ファイルを、ネットワーク１００を介して音声認識サーバ２００に転送する処理を行なう部分である。
【００７６】
音声認識サーバ２００は、音声認識辞書３１ａ、音声認識部５０ａを備えている。ここで、音声認識サーバ２００の音声認識辞書３１ａは、音声ファイル記録システム内の音声認識辞書３１より多い語彙数を持つ音声認識辞書である。音声認識サーバ２００の音声認識辞書であるので大規模な語彙を備えている。音声認識部５０ａも高精度のアルゴリズムと音響モデルを備え、高い認識精度を実現するものである。
【００７７】
次に、第２の音声記録ファイルシステムの処理の流れを図６を用いて説明する。
【００７８】
以下の例においてもアプリケーション１０はＰＩＭアプリケーションとする。また、利用者用語情報抽出部２０による利用者の用語情報の抽出処理、音声認識辞書管理部３０による音声認識辞書の語彙の追加処理は、実施形態１で説明した図２のフローチャートと同様で良い。
【００７９】
次に、音声認識処理において、まず、利用者は音声入力部４０を介して音声入力を行なう（ステップＳ６０１）。
【００８０】
音声認識部５０は、音声入力部４０を介して入力された音声データに対する音声認識処理を実行する（ステップＳ６０２）。音声認識部５０は、音声認識辞書３１を用いて音声認識処理を行なう。
【００８１】
次に、音声認識切換部８０は、音声認識部５０による音声認識率と信頼度をチェックする（ステップＳ６０３）。チェックの結果、音声認識率と信頼度が閾値より低い場合（ステップＳ６０３：Ｙ）、音声認識部５０による音声認識処理を中止し（ステップＳ６０４）、音声認識サーバ２００による音声認識処理に切り換え、音声データ転送部９０に対して音声ファイルをネットワーク１００を介して音声認識サーバ２００に転送するように指示する（ステップＳ６０５）。
【００８２】
音声認識サーバ２００は、音声認識辞書３１ａを用いて、音声ファイルの音声データを音声認識処理を実行し（ステップＳ６０６）、音声認識結果をネットワーク１００を介して代表利用者用語情報選択部６０に入力する。
【００８３】
代表利用者用語情報選択部６０は、音声認識サーバ２００から認識結果を受け取り、その中から代表利用者用語情報を選択する（ステップＳ６０７）。代表利用者用語情報は、音声認識の結果に含まれる代表的な利用者の用語情報となる。
【００８４】
次に、音声ファイル記録部７０は、音声ファイルのファイル名を代表利用者用語情報に基づいて付与し、当該音声ファイルを記録する（ステップＳ６０８）。
【００８５】
上記処理により、音声認識をネットワーク上の音声認識サーバにより実行し、当該音声認識結果を利用して代表利用者用語情報を選択し、音声ファイルのファイル名を自動付与する。
【００８６】
なお、音声認識辞書管理部３０は、音声認識サーバ２００による音声認識の結果に基づいて、音声認識辞書３１の語彙を追加することが可能である。音声認識サーバ２００による音声認識結果を有効に活用するためである。ここで、当該語彙の追加を実行するか否かを利用者が選択する選択部を備える構成とすることも可能である。音声認識サーバ２００による音声認識結果が良好とは言えない場合もあり、かならずしも当該音声認識結果を音声認識辞書３１の語彙の追加に用いる方が良いとは限らないからである。
【００８７】
なお、上記構成のうち、利用者用語情報抽出部２０、音声認識辞書管理部３０、音声認識辞書３１、音声入力部４０、音声認識部５０、音声認識切換部８０、音声データ転送部９０を別途、第１の音声認識システムとして構成することができ、また、音声認識辞書の語彙自動追加処理、音声認識処理を当該第１の音声認識システムの処理とすることができる。
【００８８】
（実施形態３）
本発明の実施形態３にかかる第３の音声ファイル記録システムは、ネットワーク上にある音声ファイルサーバを利用し、音声ファイル記録処理を音声ファイルサーバ上で行なうものである。音声ファイルを音声ファイルサーバ上に格納することにより、ＰＤＡなどの携帯端末上での記録処理を不要とするものである。
【００８９】
図７は、本発明の第３の音声ファイル記録システムの構成を説明する図である。
【００９０】
実施形態３の音声ファイル記録システムは、実施形態１と同様、音声記録用途以外の用途を持つ任意のアプリケーション１０、利用者用語情報抽出部２０、音声認識辞書管理部３０、音声認識辞書３１、音声入力部４０、音声認識部５０、代表利用者用語情報選択部６０、音声ファイル記録部７０を備え、さらに、音声ファイル転送部９１を備えている。また、ネットワーク１００上に音声ファイルサーバ３００を備えている。
【００９１】
音声ファイル転送部９１は、音声入力部４０を介して音声ファイル記録部７０に一時記憶されている音声ファイルを、ネットワーク１００を介して音声ファイルサーバ３００に転送する処理を行なう。また、音声ファイル記録部７０内には、音声ファイルのファイル名と音声ファイルサーバのネットワークアドレスを記録しておく。さらに、ダイジェスト音声データを記録することも可能である。
【００９２】
ダイジェスト音声データは、音声ファイルの音声データの一部を抽出したものである。例えば、音声ファイルの音声データの冒頭部分を抽出したもので良い。ダイジェスト音声データは容量が小さいので小さいメモリ容量で多数のダイジェスト音声データを記録することができ、また、一つ一つは短い時間で再生できるので、音声ファイルの内容を端的に把握する手掛かりとすることができる。図８は、ダイジェスト音声データを利用する場合の音声ファイル記録処理の流れを模式的に示した図である。図８には模式的に音声ファイル記録部７０と音声ファイルサーバ３００のみを示している。音声ファイル記録部７０には音声ファイルのファイル名、音声ファイルサーバ３００のアドレスデータ、ダイジェスト音声データのみが記録され、音声ファイル本体は音声ファイルサーバ３００にアップロードされ、格納されている。
【００９３】
なお、ダイジェスト音声データを記録する構成の場合、音声ファイル記録部７０がダイジェスト音声データ生成部７１を備える。ダイジェスト音声データ生成部７１は音声ファイルの音声データの一部を抽出し、音声ファイルのダイジェスト音声データを生成する部分である。
【００９４】
（実施形態４）
実施形態４にかかる第４の音声ファイル記録システムは、音声ファイル内の音声データの認識結果を本文とする電子メールを生成する機能を備えたものである。
【００９５】
図９は本発明の第４の音声ファイル記録システムの構成を説明する図である。実施形態４の音声ファイル記録システムは、実施形態１と同様、音声記録用途以外の用途を持つアプリケーション１０、利用者用語情報抽出部２０、音声認識辞書管理部３０、音声認識辞書３１、音声入力部４０、音声認識部５０、代表利用者用語情報選択部６０、音声ファイル記録部７０を備え、さらに、電子メール生成部９５を備えている。
【００９６】
電子メール生成部９５は、音声認識部５０の音声認識結果を受け、音声ファイルの音声データの認識結果を本文とする電子メールを生成する部分である。ここで、電子メール生成部９５は、代表利用者用語情報選択部６０から代表利用者用語情報を受け、電子メールのタイトル名と添付ファイルとする音声ファイルのファイル名を代表利用者用語情報に基づいて付与する。
【００９７】
また、音声ファイルを音声ファイルサーバに記録する構成である場合、電子メール生成部９５は、音声ファイルのファイル名と音声ファイルサーバのネットワークアドレスを電子メールの本文として生成し、音声ファイル内の音声データの認識結果に含まれる利用者の用語情報に基づいて電子メールのタイトルを生成する。
【００９８】
利用者用語情報抽出部２０による利用者の用語情報の抽出処理、音声認識辞書管理部３０による音声認識辞書の語彙の追加処理は、実施形態１で説明した図２のフローチャートと同様で良い。
【００９９】
音声認識処理の流れは実施形態１で説明した図３のフローチャートと同様に、図１０に示すように、音声入力部４０を介した音声入力処理（ステップＳ１００１）、音声認識部５０による音声認識処理（ステップＳ１００２）、代表利用者用語情報選択部６０による代表利用者用語情報の選択処理（ステップＳ１００３）が行なわれる。次に、電子メール生成部９５は、音声認識部５０の音声認識結果を受け、音声ファイル内の音声データの認識結果を本文とする電子メールを生成し（ステップＳ１００４）、代表利用者用語情報選択部６０から代表利用者用語情報を受け、電子メールのファイル名を代表利用者用語情報に基づいて付与し（ステップＳ１００５）、さらに、電子メールのタイトルを音声ファイル内の音声データの認識結果に含まれる利用者の用語情報に基づいて生成する（ステップＳ１００６）。生成した電子メールを相手先アドレスに宛てて送信する（ステップＳ１００７）。
【０１００】
（実施形態５）
本発明の音声認識処理および音声ファイル記録処理は、上記に説明した処理を実現するステップを記述したプログラムとして記述することができ、当該プログラムをコンピュータに読み取らせることにより、本発明の音声ファイル記録処理を実行することができる。本発明の音声ファイル記録システムを実現する処理ステップを備えたプログラムは、図１１に図示した例のように、ＣＤ−ＲＯＭ１００２やフレキシブルディスク１００３等の可搬型記録媒体１００１だけでなく、ネットワーク上にある記録装置内の記録媒体１０００や、コンピュータのハードディスクやＲＡＭ等の記録媒体１００５に格納して提供することができ、ネットワークからダウンロードすることもできる。プログラム実行時には、プログラムはコンピュータ１００４上にローディングされ、主メモリ上で実行される。
【０１０１】
（付記）
本発明の音声認識システムおよび音声ファイル記録システムに関し、以下の項をさらに開示する。
【０１０２】
（付記１）利用者が任意のアプリケーションに対して入力した情報から前記利用者の用語情報を抽出する利用者用語情報抽出部と、
音声認識辞書を備え、前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する音声認識辞書管理部と、
前記利用者の音声データを入力する音声入力部と、
前記音声認識辞書を用いて前記音声データの音声認識を実行する音声認識部を備えることを特徴とする音声認識システム（１）。
【０１０３】
（付記２）前記音声認識辞書より多い語彙数を持つ他の音声認識辞書を用いて音声認識を実行する音声認識サーバをネットワーク上に備え、
前記音声認識部による認識率または信頼度が所定値より低い場合、前記音声認識部がネットワークを介して前記音声データを前記音声認識サーバに対して送信し、
前記音声認識サーバが前記音声データの音声認識処理を実行し、当該音声認識結果を前記音声入力部に送信する付記１に記載の音声認識システム（２）。
【０１０４】
（付記３）前記音声認識辞書管理部が、前記音声認識サーバによる音声認識の結果に基づいて、前記音声認識辞書の語彙を追加する付記２に記載の音声認識システム（３）。
【０１０５】
（付記４）さらに、前記音声認識辞書管理部による前記音声認識辞書の語彙の追加を実行するか否かを利用者が選択する選択部を備えた付記３に記載の音声認識システム。
【０１０６】
（付記５）利用者が任意のアプリケーションに対して入力した情報から前記利用者の用語情報を抽出する利用者用語情報抽出部と、
音声認識辞書を備え、前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する音声認識辞書管理部と、
前記利用者の音声データを入力する音声入力部と、
入力された前記音声データを音声ファイルとして記録する音声ファイル記録部と、
前記音声認識辞書を用いて前記音声データの音声認識を実行する音声認識部と、
前記音声認識の結果に含まれる前記利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択する代表利用者用語情報選択部を備え、
前記音声ファイル記録部が、前記音声ファイルのファイル名を、前記代表利用者用語情報に基づいて付与することを特徴とする音声ファイル記録システム（４）
（付記６）前記音声認識辞書より多い語彙数を持つ他の音声認識辞書を用いて音声認識を実行する音声認識サーバをネットワーク上に備え、
前記音声認識部による認識率または信頼度が所定値より低い場合、前記音声ファイル記録部が、ネットワークを介して前記音声ファイルを前記音声認識サーバに対して送信し、
前記音声認識サーバが前記音声データの音声認識処理を実行し、
前記代表利用者用語情報選択部が、前記ネットワークを介して前記音声認識サーバから音声認識結果を浮け、前記音声認識サーバによる音声認識の結果に含まれる前記利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択する付記５に記載の音声ファイル記録システム（４）。
【０１０７】
（付記７）前記音声ファイルを格納する音声ファイルサーバをネットワーク上に備え、
前記音声ファイル記録部が、前記音声ファイルと検索キーワードを前記ネットワークを介して前記音声ファイルサーバに転送して、当該音声ファイルサーバ内に前記音声ファイルを格納し、
前記音声ファイル記録部内には、前記音声ファイルのファイル名と前記検索キーワードと前記音声ファイルサーバのネットワークアドレスを記録する付記５または６に記載の音声ファイル記録システム（５）。
【０１０８】
（付記８）さらに、前記音声ファイル記録部による前記音声ファイルサーバへの前記音声ファイルの転送に先立ち、前記音声ファイルに記録されている音声データの一部を抽出し、前記音声ファイルのダイジェスト音声データを生成するダイジェスト音声データ生成部を備え、
前記音声ファイル記録部は、前記音声ファイルのファイル名と前記検索キーワードと前記音声ファイルサーバのネットワークアドレスに加え、前記ダイジェスト音声データを記録する付記７に記載の音声ファイル記録システム（６）。
【０１０９】
（付記９）さらに、タイトルと本文からなる電子メールを生成する電子メール生成部を備え、前記電子メール生成部が、前記音声ファイル内の音声データの認識結果の内容を前記電子メールの本文とし、前記音声ファイル内の音声データの認識結果に含まれる前記利用者の用語情報を前記電子メールのタイトルとし、前記電子メールのファイル名を前記代表利用者用語情報に基づいて付与する付記５または６に記載の音声ファイル記録システム（７）。
【０１１０】
（付記１０）さらに、タイトルと本文からなる電子メールを生成する電子メール生成部を備え、前記電子メール生成部が、前記音声ファイルのファイル名と前記音声ファイルサーバのネットワークアドレスを前記電子メールの本文とし、前記音声ファイル内の音声データの認識結果に含まれる前記利用者の用語情報を前記電子メールのタイトルとする付記７に記載の音声ファイル記録システム（８）。
【０１１１】
（付記１１）任意のアプリケーションに対して利用者が入力した情報から前記利用者の用語情報を抽出し、
音声認識辞書を保持し、抽出した前記利用者の用語情報を基に前記音声認識辞書の語彙を追加し、
前記利用者の音声データを入力し、
前記音声認識辞書を用い、前記音声データの音声認識を実行することを特徴とする音声認識方法（９）。
【０１１２】
（付記１２）入力された音声データを認識する音声認識処理プログラムであって、
任意のアプリケーションに対して利用者が入力した情報から前記利用者の用語情報を抽出する処理ステップと、
音声認識辞書を保持し、抽出した前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する処理ステップと、
前記利用者の音声データを入力する処理ステップと、
前記音声認識辞書を用い、前記音声データの音声認識を実行する処理ステップとを備えたことを特徴とする音声認識処理プログラム（１０）。
【０１１３】
（付記１３）任意のアプリケーションに対して利用者が入力した情報から前記利用者の用語情報を抽出し、
音声認識辞書を保持し、抽出した前記利用者の用語情報を基に前記音声認識辞書の語彙を追加し、
前記利用者の音声データを入力し、
入力された前記音声データを音声ファイルとして記録し、
前記音声認識辞書を用い、前記音声データの音声認識を実行し、
前記音声認識の結果に含まれる前記利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択し、
前記音声ファイルのファイル名を、前記代表利用者用語情報に基づいて付与することを特徴とする音声ファイル記録方法。
【０１１４】
（付記１４）入力された音声データを音声ファイルとして記録する音声ファイル記録処理プログラムであって、
任意のアプリケーションに対して利用者が入力した情報から前記利用者の用語情報を抽出する処理ステップと、
音声認識辞書を保持し、抽出した前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する処理ステップと、
前記利用者の音声データを入力する処理ステップと、
入力された前記音声データを音声ファイルとして記録する処理ステップと、
前記音声認識辞書を用い、前記音声データの音声認識を実行する処理ステップと、
前記音声認識の結果に含まれる前記利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択する処理ステップと、
前記音声ファイルのファイル名を、前記代表利用者用語情報に基づいて付与する処理ステップを備えたことを特徴とする音声ファイル記録処理プログラム。
【０１１５】
【発明の効果】
本発明の第１の音声ファイル記録システムによれば、代表利用者用語情報を基に音声メモ情報の内容を端的に把握できるファイル名を自動的に付与することができる。また、利用者用語情報を用いて利用者による入力が想定される単語を効率良くカバーする語彙を備えた音声認識辞書を自動的に生成することができる。
【０１１６】
また、本発明の第２の音声ファイル記録システムによれば、ネットワークを介して音声認識処理を音声認識サーバで実行させることができ、ＰＤＡなどの携帯端末の処理負荷を低減することができる。
【０１１７】
また、本発明の第３の音声ファイル記録システムによれば、音声ファイルを音声ファイルサーバ上に格納することができ、ＰＤＡなどの携帯端末のメモリ容量を低減することができる。
【０１１８】
また、本発明の第４の音声ファイル記録システムによれば、音声ファイル内の音声データの認識結果を電子メールの本文とし、音声ファイルのファイル名、音声ファイルサーバのネットワークアドレス、ダイジェスト音声データなどを本文とすることもできる。電子メールのタイトルは、音声ファイル内の音声データの認識結果に含まれる利用者の用語情報に基づいて生成することができる。
【図面の簡単な説明】
【図１】本発明の第１の音声ファイル記録システムの構成を説明する図
【図２】音声ファイル記録システムの処理の流れを示すフローチャート
【図３】音声認識処理、音声ファイル記録処理、音声ファイル名自動付与処理の流れを示すフローチャート
【図４】音声認識辞書の語彙を模式的に説明した図
【図５】本発明の第２の音声ファイル記録システムの構成を説明する図
【図６】本発明の第２の音声ファイル記録システムの音声認識処理、音声ファイル記録処理、音声ファイル名自動付与処理の流れを示すフローチャート
【図７】本発明の第３の音声ファイル記録システムの構成を説明する図
【図８】ダイジェスト音声情報を利用する場合の音声ファイル記録処理の流れを模式的に示した図
【図９】本発明の第４の音声ファイル記録システムの構成を説明する図
【図１０】本発明の第４の音声ファイル記録システムの処理の流れを示すフローチャート
【図１１】本発明の音声ファイル記録システムを実現する処理ステップを記録した記録媒体の例を示す図
【図１２】音声入力された音声メモ情報を音声ファイルとして記録する従来の音声メモ情報記録システムを説明する図
【図１３】従来技術における音声認識処理を伴う音声メモ情報記録システムを説明する図
【符号の説明】
１０音声記録用途以外の用途を持つアプリケーション
２０利用者用語情報抽出部
３０音声認識辞書管理部
３１音声認識辞書
４０音声入力部
５０音声認識部
６０代表利用者用語情報選択部
７０音声ファイル記録部
７１ダイジェスト音声情報生成部
８０音声認識切換部
９０音声データ転送部
９１音声ファイル転送部
９５電子メール生成部
１００ネットワーク
２００音声認識サーバ
３００音声ファイルサーバ
５１０マイクロフォン
５２０音声ファイル記録部
５３０音声ファイル名入力部
５４０音声ファイル再生部
６１０マイクロフォン
６２０音響解析部
６３０音響モデル
６４０音声認識辞書
６５０照合部
１０００回線先のハードディスク等の記録媒体
１００１ＣＤ−ＲＯＭやフレキシブルディスク等の可搬型記録媒体
１００２ＣＤ−ＲＯＭ
１００３フレキシブルディスク
１００４コンピュータ
１００５コンピュータ上のＲＡＭ／ハードディスク等の記録媒体

Claims

利用者が音声記録用途以外の用途を持つ任意のアプリケーションに対して入力した情報から前記利用者が良く用いる用語情報または前記利用者が用いる独特の用語情報を抽出する利用者用語情報抽出部と、
音声認識辞書を備え、前記利用者用語情報抽出部によって抽出された前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する音声認識辞書管理部と、
前記利用者の音声データを入力する音声入力部と、
前記音声認識辞書を用いて前記音声データの音声認識を実行する音声認識部を備えることを特徴とする音声認識システム。
前記音声認識辞書より多い語彙数を持つ他の音声認識辞書を用いて音声認識を実行する音声認識サーバをネットワーク上に備え、
前記音声認識部による認識率または信頼度が所定値より低い場合、前記音声認識部がネットワークを介して前記音声データを前記音声認識サーバに対して送信し、
前記音声認識サーバが前記音声データの音声認識処理を実行し、当該音声認識結果を前記音声入力部に送信する請求項１に記載の音声認識システム。
前記音声認識辞書管理部が、前記音声認識サーバによる音声認識の結果に基づいて、前記音声認識辞書の語彙を追加する請求項２に記載の音声認識システム。
請求項１または２に記載の音声認識システムから音声認識結果を入力し、前記音声認識結果に含まれる前記利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択する代表利用者用語情報選択部と、
前記音声データを音声ファイルとして記録する音声ファイル記録部を備え、
前記音声ファイル記録部が、前記音声ファイルのファイル名を、前記代表利用者用語情報に基づいて付与することを特徴とする音声ファイル記録システム。
前記音声ファイルを格納する音声ファイルサーバをネットワーク上に備え、
前記音声ファイル記録部が、前記音声ファイルと検索キーワードを前記ネットワークを介して前記音声ファイルサーバに転送して、当該音声ファイルサーバ内に前記音声ファイルを格納し、
前記音声ファイル記録部内には、前記音声ファイルのファイル名と前記検索キーワードと前記音声ファイルサーバのネットワークアドレスを記録する請求項４に記載の音声ファイル記録システム。
さらに、前記音声ファイル記録部による前記音声ファイルサーバへの前記音声ファイルの転送に先立ち、前記音声ファイルに記録されている音声データの一部を抽出し、前記音声ファイルのダイジェスト音声データを生成するダイジェスト音声データ生成部を備え、
前記音声ファイル記録部は、前記音声ファイルのファイル名と前記検索キーワードと前記音声ファイルサーバのネットワークアドレスに加え、前記ダイジェスト音声データを記録する請求項５に記載の音声ファイル記録システム。
さらに、タイトルと本文からなる電子メールを生成する電子メール生成部を備え、前記電子メール生成部が、前記音声ファイル内の音声データの認識結果の内容を前記電子メールの本文とし、前記音声ファイル内の音声データの認識結果に含まれる前記利用者の用語情報を前記電子メールのタイトルとし、前記電子メールのファイル名を前記代表利用者用語情報に基づいて付与する請求項４に記載の音声ファイル記録システム。
さらに、タイトルと本文からなる電子メールを生成する電子メール生成部を備え、前記電子メール生成部が、前記音声ファイルのファイル名と前記音声ファイルサーバのネットワークアドレスを前記電子メールの本文とし、前記音声ファイル内の音声データの認識結果に含まれる前記利用者の用語情報を前記電子メールのタイトルとする請求項５に記載の音声ファイル記録システム。
音声記録用途以外の用途を持つ任意のアプリケーションに対して利用者が入力した情報から前記利用者が良く用いる用語情報または前記利用者が用いる独特の用語情報を抽出し、
音声認識辞書を保持し、抽出した前記利用者の用語情報を基に前記音声認識辞書の語彙を追加し、
前記利用者の音声データを入力し、
前記音声認識辞書を用い、前記音声データの音声認識を実行することを特徴とする音声認識方法。
入力された音声データを認識する音声認識処理プログラムであって、
音声記録用途以外の用途を持つ任意のアプリケーションに対して利用者が入力した情報から前記利用者が良く用いる用語情報または前記利用者が用いる独特の用語情報を抽出する処理ステップと、
音声認識辞書を保持し、抽出した前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する処理ステップと、
前記利用者の音声データを入力する処理ステップと、
前記音声認識辞書を用い、前記音声データの音声認識を実行する処理ステップとを備えたことを特徴とする音声認識処理プログラム。