JP4017887B2 - 音声認識システムおよび音声ファイル記録システム - Google Patents

音声認識システムおよび音声ファイル記録システム Download PDF

Info

Publication number
JP4017887B2
JP4017887B2 JP2002054368A JP2002054368A JP4017887B2 JP 4017887 B2 JP4017887 B2 JP 4017887B2 JP 2002054368 A JP2002054368 A JP 2002054368A JP 2002054368 A JP2002054368 A JP 2002054368A JP 4017887 B2 JP4017887 B2 JP 4017887B2
Authority
JP
Japan
Prior art keywords
user
voice
speech recognition
audio file
term information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002054368A
Other languages
English (en)
Other versions
JP2003255982A (ja
Inventor
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002054368A priority Critical patent/JP4017887B2/ja
Priority to US10/285,482 priority patent/US7979278B2/en
Publication of JP2003255982A publication Critical patent/JP2003255982A/ja
Application granted granted Critical
Publication of JP4017887B2 publication Critical patent/JP4017887B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Description

【0001】
【発明の属する技術分野】
本発明は、入力された音声データを認識する音声認識システムと当該音声データを音声ファイルとして記録する音声ファイル記録システム及び方法に関するものである。特に、PDA(Personal data assistance)などに用いられる携帯端末や電話システムなどにおける、音声メモ記録アプリケーションや音声電子メールアプリケーションなど、音声ファイルの記録処理を伴うアプリケーションに適用される。
【0002】
【従来の技術】
PDAなどに用いられる携帯端末は、持ち運びするために小型化されており、入力デバイスとしてはペンや小型キーボードなどが装備されていることが多い。
【0003】
ペンを用いたいわゆるペン入力の場合、電子パッドにペンのペン先を接触させ、電子パッド内に入力したいテキスト文字を書いたり、ペン入力用に決められた特別の記号を書いたり、クロスなど特別なジェスチャをペン先で描いたりすることにより情報を入力する。
【0004】
電子パッドに入力したいテキスト文字そのものを書く場合、文字入力処理、文字認識処理に時間を要し、利用者が外出先や打ち合わせの席上などにおいて、簡単にメモ情報を記録する際に不便を感じることが多い。
【0005】
電子パッドにペン入力用に決められた特別の記号を書いたり、クロスなど特別なジェスチャをペン先で描いたりする場合、利用者はこれら特別の記号やジェスチャを覚える必要があり、利用者が負担を感じることが多い。
【0006】
そこで、PDAなどの携帯端末において、音声入力が注目されている。
【0007】
音声入力が可能であれば、利用者は装備されたマイクロフォンを介して、メモしたい内容を音声で入力するのみで良く、音声を発することが許される状況であれば、簡単にメモ情報を音声入力により記録することができる。
【0008】
図12は、音声入力された音声メモ情報を音声ファイルとして記録する従来の音声メモ情報記録システムを説明する図である。
【0009】
510はマイクロフォン、520は音声ファイル記録部、530は音声ファイル名入力部、540は音声ファイル再生部である。
【0010】
利用者はマイクロフォン510を介して音声を入力する。音声はマイクロフォン510により音声データに変換される。音声データは音声ファイルとして音声ファイル記録部520に記録される。その際、音声ファイルに対してファイル名を付与する必要がある。利用者は自ら音声ファイル名入力部530を介して音声ファイルに対するファイル名を入力する。この音声ファイル名入力部530は、PDAが備えるペンによるペン入力インタフェースにより提供されることが想定される。
【0011】
なお、利用者は自らによるファイル名の入力に代え、音声ファイル名入力部530が自動的に通し番号をファイル名として付けることは可能である。例えば、記録される順番に“voice.1”、“voice.2”と付与することになる。
【0012】
また、従来のPDAにおいて、音声入力を受け付け、入力された音声データを音声ファイルとして記録するのではなく、続いて音声認識処理を行ない、テキストファイルとして記録する音声メモ情報記録システムが知られている。
【0013】
図13は、従来技術における音声認識処理を伴う音声メモ情報記録システムを説明する図である。
【0014】
610はマイクロフォン、620は音響解析部、630は音響モデル、640は音声認識辞書、650は照合認識部である。
【0015】
利用者はマイクロフォン610を介して音声を入力する。音声はマイクロフォン610により音声データに変換される。音響解析部620により音声データに対する音響解析が行なわれ、音声データは音素単位に分割され、各音素単位で特徴量が抽出される。音響モデル630はモデルとなる各音素単位の特徴量を照合する際のデータ形式で格納している。例えば、HMM(Hidden Markov Model)を用いた確率モデルが使われている。
【0016】
照合認識部650は、音響解析部620から入力される音声データの音素単位の特徴量と、音響モデル630に格納されている各音素単位の特徴量データ、例えば、各音素単位の特徴量の確率モデルとを比較照合し、入力された音声データの音素単位を認識する。その際、照合認識部650は、さらに音声認識辞書640を参照し、認識した音素単位からなる情報が単語等、登録されている語として認識され得るものかを確認し、当該認識された単語を音声認識結果として出力する。
【0017】
ここで、音声認識処理の性能を大きく左右するものは、辞書格納部630が格納する辞書の語彙である。利用者が入力した単語が辞書の語彙として含まれている場合にのみ、音声認識を行なうことができる。辞書の語彙数が増えれば音声認識処理を行なうことができる単語等の数が増えることとなるが、PDAのような小型携帯端末では辞書容量も制限され、さらに、語彙数が増えれば照合処理に要する時間がかかるので、辞書の語彙数は制限されている。
【0018】
そこで、制限された語彙数で、利用者が入力する単語を効率良くカバーするため、辞書の語彙を利用者向けにカスタマイズしたユーザ辞書を用いることが広く行なわれている。
【0019】
【発明が解決しようとする課題】
上記従来の音声メモ情報記録システムには以下の問題点がある。
【0020】
まず、音声ファイル名を利用者自らのテキストデータの入力により与える場合には、音声ファイル名の利用者による付与が不便であるという問題点がある。
【0021】
メモ情報自体を音声により簡単に入力しても、そのファイル名をペン入力やキーボードを用いた入力で行なうこととなれば、上記したように利用者にとって不便であり、利用者が負担を感じるという問題が生じる。
【0022】
ファイル名はかならずテキストデータで与えなければならないので、ファイル名の付与を音声入力により行なう場合は、音声認識処理を行なう構成部分が必要となってしまう。
【0023】
また、上記したように、音声ファイルのファイル名を自動的に通し番号により与える場合には、利用者自身がファイル名を入力するという負担は生じないが、多数の音声メモ情報を記録する場合、通し番号だけでは記録した音声ファイルの内容が分かりにくいため、音声メモ情報を参照する時点において、目的とする音声メモ情報がどの音声ファイルとして記録されているかを判別するのが困難であるという問題が生じる。
【0024】
次に、音声入力された音声メモ情報を音声認識し、音声メモ情報をテキストファイルとして記録する音声メモ情報記録システムの場合、ユーザ辞書作成の利用者負担が大きいという問題がある。
【0025】
従来技術の欄でも述べたように、音声認識の認識率を向上させるためには、少ない辞書容量で利用者による入力が想定される単語等を効率良くカバーする語彙を備えたユーザ辞書を用意する必要があるが、当該ユーザ辞書はユーザ自身が作成する必要があり、当該ユーザ辞書作成の利用者負担が生じる。当該ユーザ辞書の作成をペン入力やキーボードを用いた入力で行なうこととなれば、利用者にとっての負担はさらに大きくなる。
【0026】
本発明は、上記問題を解決し、音声入力した音声メモ情報を音声ファイルとして記録し、かつ、音声メモ情報の内容を端的に把握できるファイル名を自動的に付与し、さらに、利用者による入力が想定される単語を効率良くカバーする語彙を備えたユーザ辞書を自動的に生成することができる音声ファイル記録システムを提供することを目的とする。
【0027】
【課題を解決するための手段】
上記目的を達成するため、本発明の音声認識システムは、利用者が任意のアプリケーションに対して入力した情報から前記利用者の用語情報を抽出する利用者用語情報抽出部と、音声認識辞書を備え、前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する音声認識辞書管理部と、前記利用者の音声データを入力する音声入力部と、前記音声認識辞書を用いて前記音声データの音声認識を実行する音声認識部を備えることを特徴とする。
【0028】
上記構成により、音声認識辞書を利用者が他のアプリケーションで用いた利用者用語情報により追加するので、利用者による入力が想定される単語を効率良くカバーする語彙を備えた音声認識辞書を自動的に生成することができる。
【0029】
本発明の音声認識システムにおいて、前記音声認識辞書より多い語彙数を持つ他の音声認識辞書を用いて音声認識を実行する音声認識サーバをネットワーク上に備え、前記音声認識部による認識率または信頼度が所定値より低い場合、前記音声認識部がネットワークを介して前記音声データを前記音声認識サーバに対して送信し、前記音声認識サーバが前記音声データの音声認識処理を実行し、当該音声認識結果を前記音声入力部に送信することも可能である。
【0030】
上記構成により、音声認識処理を音声認識サーバで実行させることができる。音声認識サーバ上で高精度な認識処理を実行すれば音声認識精度の向上を図ることができる。
【0031】
なお、上記構成において、音声認識辞書管理部が音声認識サーバによる音声認識の結果に基づいて音声認識辞書の語彙を追加することとすれば、音声認識辞書の語彙を適切に更新して行くことができる。また、当該音声認識辞書の語彙の追加の実行を利用者が選択する選択部を備えることも好ましい。
【0032】
次に、本発明の音声ファイル記録システムは、上記本発明の音声認識システムから音声認識結果を入力し、前記音声認識の結果に含まれる前記利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択する代表利用者用語情報選択部と、前記音声データを音声ファイルとして記録する音声ファイル記録部を備え、前記音声ファイル記録部が、前記音声ファイルのファイル名を、前記代表利用者用語情報に基づいて付与することを特徴とする。
【0033】
上記構成によれば、代表利用者用語情報を基に音声メモ情報の内容を端的に把握できるファイル名を自動的に付与することができる。
【0034】
次に、本発明の音声ファイル記録システムは、さらに、前記音声ファイルを格納する音声ファイルサーバをネットワーク上に備え、前記音声ファイル記録部が、前記音声ファイルと検索キーワードを前記ネットワークを介して前記音声ファイルサーバに転送して、当該音声ファイルサーバ内に前記音声ファイルを格納し、前記音声ファイル記録部内には、前記音声ファイルのファイル名と前記検索キーワードと前記音声ファイルサーバのネットワークアドレスを記録する。
【0035】
上記構成により、音声ファイルを音声ファイルサーバ上に格納することができ、利用者が用いる携帯端末のメモリ容量を低減することができる。
【0036】
なお、上記構成において、さらに、前記音声ファイル記録部による前記音声ファイルサーバへの前記音声ファイルの転送に先立ち、前記音声ファイルに記録されている音声データの一部を抽出し、前記音声ファイルのダイジェスト音声データを生成するダイジェスト音声データ生成部を備え、前記音声ファイル記録部は、前記音声ファイルのファイル名と前記検索キーワードと前記音声ファイルサーバのネットワークアドレスに加え、前記ダイジェスト音声データを記録することも好ましい。
【0037】
上記構成により、当該ダイジェストデータを参照することにより、音声ファイルの内容を簡単に把握することができる。
【0038】
次に、本発明の音声ファイル記録システムは、さらに、タイトルと本文からなる電子メールを生成する電子メール生成部を備え、前記電子メール生成部は、前記音声ファイル内の音声データの認識結果の内容を前記電子メールの本文とし、前記音声ファイル内の音声データの認識結果に含まれる前記利用者の用語情報を前記電子メールのタイトルとし、前記電子メールのファイル名を前記代表利用者用語情報に基づいて付与する。
【0039】
上記構成によれば、音声ファイル内の音声データの認識結果の内容を電子メールとして生成することができ、内容を端的に把握できるファイル名を自動的に付与することができる。
【0040】
また、前記電子メール生成部は前記音声ファイルのファイル名と前記音声ファイルサーバのネットワークアドレスを前記電子メールの本文とし、前記音声ファイル内の音声データの認識結果に含まれる前記利用者の用語情報を前記電子メールのタイトルとする。
【0041】
上記構成によれば、当該電子メールを受領した者は、音声ファイルのファイル名と音声ファイルサーバのネットワークアドレスを得ることができ、音声ファイルにアクセスできる。
【0042】
【発明の実施の形態】
以下、図面を参照しつつ、本発明の音声認識システムおよび音声認識方法、ならびに音声ファイル記録システムおよび音声ファイル記録方法の実施形態を説明する。
【0043】
(実施形態1)
本発明の実施形態1として、PDAなどの携帯端末に適用され、音声認識辞書の語彙自動追加処理、音声認識処理、音声ファイル記録処理、音声ファイル名自動付与処理を行なう第1の音声ファイル記録システムを説明する。
【0044】
図1は、実施形態1にかかる、本発明の第1の音声ファイル記録システムの構成を説明する図である。
【0045】
10は音声記録用途以外の用途を持つアプリケーション、20は利用者用語情報抽出部、30は音声認識辞書管理部、31は音声認識辞書、40は音声入力部、50は音声認識部、60は代表利用者用語情報選択部、70は音声ファイル記録部である。
【0046】
上記構成のうち、音声認識辞書31の語彙自動追加処理に関する構成要素は、アプリケーション10、利用者用語情報抽出部20、音声認識辞書管理部30である。音声認識処理に関する構成要素は、音声入力部40、音声認識部50、音声認識辞書31である。音声ファイル記録処理と音声ファイル名自動付与処理に関する構成要素は、代表利用者用語情報選択部60と音声ファイル記録部70である。
【0047】
アプリケーション10は、音声記録用途以外の用途を持つ任意のアプリケーションである。当該アプリケーションの用途は特に限定されないが、利用者が良く用いる用語情報を効率良く収集するために、例えば、PIM(Personal Information Manager:個人情報管理)で用いられるアプリケーションとする。
【0048】
利用者用語情報抽出部20は、利用者がアプリケーション10に対して入力した情報から利用者の用語情報を抽出する部分である。
【0049】
音声認識辞書管理部30は、音声認識辞書31を備え、利用者用語情報抽出部20が抽出した利用者の用語情報を基に音声認識辞書31の語彙を追加する部分である。
【0050】
音声入力部40は利用者の音声データを入力する部分である。例えば、マイクロフォンとサンプリング処理部を備え、入力された音声波動を電気信号に変換し、所定周波数でサンプリングしてサンプリングデータを入力する。
【0051】
音声認識部50は、音声認識辞書31を用いて音声データの音声認識を実行する部分である。音声認識部50は、音響解析機能と音響モデルと照合機能を備えている。音声認識部50は、音響解析機能により音声データを音素単位に分割して特徴量を抽出し、照合機能により当該特徴量を用いた音素単位の照合および単語単位の照合を行なう。音素単位の照合は音響モデル内の特徴量との照合により行ない、単語単位の照合は音声認識辞書31内の語彙との照合により行なう。
【0052】
代表利用者用語情報選択部60は、音声認識部50による音声認識の結果に含まれる利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択する部分である。
【0053】
音声ファイル記録部70は、音声入力部40から入力された音声データを音声ファイルとして記録する部分である。音声ファイル記録部70は、音声ファイルのファイル名を、代表利用者用語情報選択部70が選択した代表利用者用語情報に基づいて付与する。
【0054】
次に、本発明の第1の音声ファイル記録システムの処理の流れを説明する。
【0055】
まず、音声認識辞書31の語彙自動追加処理の流れを図2を用いて説明する。当該音声認識辞書31の語彙自動追加処理は音声認識処理に先立って行なわれるものとし、また、当該処理はその後も適宜実行され、音声認識辞書31は自動的に更新される。自動更新は、例えば、一定期間ごとに行なったり、PIMアプリケーションが利用されて新たなデータが蓄積された場合に行なう。
【0056】
以下の例ではアプリケーション10はPIMアプリケーションとする。PIMアプリケーションは、利用者のスケジュール管理データ、利用者本人の個人データ、利用者および取引先などの住所録データなど、種々の利用者に関する情報を管理するアプリケーションである。利用者は普段からPIMアプリケーションを使用しているものとする。当該PIMアプリケーションを介して種々のデータが蓄積されている。
【0057】
まず、利用者用語情報抽出部20は、アプリケーション10のデータに含まれている利用者の用語情報を抽出する(ステップS201)。
【0058】
アプリケーション10のデータに含まれる種々の用語が利用者用語情報として抽出される。このように利用者用語情報抽出部20によってPIMなどのアプリケーションから抽出される用語情報は、利用者が良く用いる用語情報や利用者が用いる独特の用語情報を含むものとなる。ここでは、利用者のスケジュール管理データから抽出された仕事の取引先の担当者の名前“A”に注目して以下の説明を続ける。ここで、名前“A”は通常の音声認識辞書には含まれていないような珍しい名前とする。
【0059】
次に、音声認識辞書管理部30は、利用者用語情報抽出部20により抽出した利用者の用語情報により音声認識辞書の語彙を追加する(ステップS202)。
【0060】
このように、当該利用者の用語情報により音声認識辞書31の語彙を追加するので、音声認識辞書31は利用者が良く用いると想定される用語情報や利用者が使う独特の用語情報をカバーするものとすることができる。また、用語情報を効率的に編纂できるので辞書容量を低減することができる。
【0061】
図4は音声認識辞書の語彙を模式的に説明した図である。この例では、音声認識に利用される汎用的な語彙の集合である基本語彙部分と、利用者の用語情報を基に追加する利用者用語情報部分を備えている。ここでは、利用者用語情報抽出部20が抽出した仕事の取引先の担当者の名前“A”を含む種々の利用者の用語情報が当該利用者用語情報部分に追加される。
【0062】
上記の処理の流れにより音声認識辞書31を追加する。このように追加された音声認識辞書31は音声認識処理に用いられる。
【0063】
次に、音声認識処理の流れ、続いて、音声ファイル記録処理および音声ファイル名自動付与処理の流れを図3を用いて説明する。
【0064】
まず、利用者は音声入力部40を介して音声入力を行なう(ステップS301)。ここでは、音声メモとして、Aさんに依頼する予定の仕事の内容に関する情報を音声で入力したとする。
【0065】
次に、音声認識部50は、音声入力部40を介して入力された音声データに対する音声認識処理を実行する(ステップS302)。音声認識部50は、音声認識辞書31を用いて音声認識処理を行なう。
【0066】
なお、音声認識辞書31は上記の語彙自動追加処理が施され、語彙が追加されているので、利用者が良く用いる用語情報や利用者が用いる独特の用語情報をカバーするものとなっており、利用者から入力された音声データを効率良く認識できる。この例では名前“A”は珍しい名前であり、音声認識辞書31の基本語彙部分では認識することができないが、本発明では音声認識辞書31は利用者用語情報部分を備えているので、名前“A”を正しく認識することができる。
【0067】
次に、代表利用者用語情報選択部60は、音声認識部50から認識結果を受け取り、その中から代表利用者用語情報を選択する(ステップS303)。代表利用者用語情報は、音声認識の結果に含まれる代表的な利用者の用語情報となる。例えば、仕事の取引先の担当者の名前“A”が代表利用者用語情報として選択される。
【0068】
次に、音声ファイル記録部70は、音声ファイルのファイル名を代表利用者用語情報に基づいて付与し、当該音声ファイルを記録する(ステップS304)。ここで、代表利用者用語情報は音声ファイルの内容に含まれる代表的な利用者の用語情報であるので、当該代表利用者用語情報を基にファイル名を自動的に付与すれば、利用者にとって音声ファイルの内容を想起し、把握しやすいファイル名となる。
【0069】
以上、本発明の実施形態1にかかる、音声ファイル記録システムを用いれば、音声認識辞書を利用者用語情報により追加し、利用者による入力が想定される単語を効率良くカバーする語彙を備えたものとでき、入力された音声データを音声ファイルとして記録し、その内容を端的に把握できるファイル名を自動的に付与することができる。
【0070】
なお、上記構成のうち、利用者用語情報抽出部20、音声認識辞書管理部30、音声認識辞書31、音声入力部40、音声認識部50を別途、第1の音声認識システムとして構成することができ、また、音声認識辞書の語彙自動追加処理、音声認識処理を当該第1の音声認識システムの処理とすることができる。
【0071】
(実施形態2)
本発明の実施形態2にかかる第2の音声ファイル記録システムは、ネットワーク上にある音声認識サーバを利用し、入力された音声データを音声認識サーバに送り、音声認識処理を音声認識サーバで実行させ、その結果を受け取ることにより、PDAなどの携帯端末上での音声認識処理の負荷を低減させ、音声ファイル記録処理およびファイル名自動付与処理を行なうものである。。
【0072】
図5は、本発明の第2の音声ファイル記録システムの構成を説明する図である。
【0073】
第2の音声ファイル記録システムは、実施形態1に示した第1の音声ファイル記録システムと同様、音声記録用途以外の用途を持つ任意のアプリケーション10、利用者用語情報抽出部20、音声認識辞書管理部30、音声認識辞書31、音声入力部40、音声認識部50、代表利用者用語情報選択部60、音声ファイル記録部70を備え、さらに、音声認識切換部80、音声データ転送部90を備えている。また、ネットワーク100上に音声認識サーバ200を備えている。
【0074】
音声認識切換部80は、音声認識部50による音声認識率や信頼度をチェックし、音声認識率や信頼度が閾値より低い場合に、音声認識部50による音声認識処理を中止し、音声ファイル記録システム上での音声認識処理に代え、音声認識サーバ200による音声認識処理に切り換える部分である。
【0075】
音声データ転送部90は、音声入力部40を介して音声認識部50に一時記憶されている音声ファイルを、ネットワーク100を介して音声認識サーバ200に転送する処理を行なう部分である。
【0076】
音声認識サーバ200は、音声認識辞書31a、音声認識部50aを備えている。ここで、音声認識サーバ200の音声認識辞書31aは、音声ファイル記録システム内の音声認識辞書31より多い語彙数を持つ音声認識辞書である。音声認識サーバ200の音声認識辞書であるので大規模な語彙を備えている。音声認識部50aも高精度のアルゴリズムと音響モデルを備え、高い認識精度を実現するものである。
【0077】
次に、第2の音声記録ファイルシステムの処理の流れを図6を用いて説明する。
【0078】
以下の例においてもアプリケーション10はPIMアプリケーションとする。また、利用者用語情報抽出部20による利用者の用語情報の抽出処理、音声認識辞書管理部30による音声認識辞書の語彙の追加処理は、実施形態1で説明した図2のフローチャートと同様で良い。
【0079】
次に、音声認識処理において、まず、利用者は音声入力部40を介して音声入力を行なう(ステップS601)。
【0080】
音声認識部50は、音声入力部40を介して入力された音声データに対する音声認識処理を実行する(ステップS602)。音声認識部50は、音声認識辞書31を用いて音声認識処理を行なう。
【0081】
次に、音声認識切換部80は、音声認識部50による音声認識率と信頼度をチェックする(ステップS603)。チェックの結果、音声認識率と信頼度が閾値より低い場合(ステップS603:Y)、音声認識部50による音声認識処理を中止し(ステップS604)、音声認識サーバ200による音声認識処理に切り換え、音声データ転送部90に対して音声ファイルをネットワーク100を介して音声認識サーバ200に転送するように指示する(ステップS605)。
【0082】
音声認識サーバ200は、音声認識辞書31aを用いて、音声ファイルの音声データを音声認識処理を実行し(ステップS606)、音声認識結果をネットワーク100を介して代表利用者用語情報選択部60に入力する。
【0083】
代表利用者用語情報選択部60は、音声認識サーバ200から認識結果を受け取り、その中から代表利用者用語情報を選択する(ステップS607)。代表利用者用語情報は、音声認識の結果に含まれる代表的な利用者の用語情報となる。
【0084】
次に、音声ファイル記録部70は、音声ファイルのファイル名を代表利用者用語情報に基づいて付与し、当該音声ファイルを記録する(ステップS608)。
【0085】
上記処理により、音声認識をネットワーク上の音声認識サーバにより実行し、当該音声認識結果を利用して代表利用者用語情報を選択し、音声ファイルのファイル名を自動付与する。
【0086】
なお、音声認識辞書管理部30は、音声認識サーバ200による音声認識の結果に基づいて、音声認識辞書31の語彙を追加することが可能である。音声認識サーバ200による音声認識結果を有効に活用するためである。ここで、当該語彙の追加を実行するか否かを利用者が選択する選択部を備える構成とすることも可能である。音声認識サーバ200による音声認識結果が良好とは言えない場合もあり、かならずしも当該音声認識結果を音声認識辞書31の語彙の追加に用いる方が良いとは限らないからである。
【0087】
なお、上記構成のうち、利用者用語情報抽出部20、音声認識辞書管理部30、音声認識辞書31、音声入力部40、音声認識部50、音声認識切換部80、音声データ転送部90を別途、第1の音声認識システムとして構成することができ、また、音声認識辞書の語彙自動追加処理、音声認識処理を当該第1の音声認識システムの処理とすることができる。
【0088】
(実施形態3)
本発明の実施形態3にかかる第3の音声ファイル記録システムは、ネットワーク上にある音声ファイルサーバを利用し、音声ファイル記録処理を音声ファイルサーバ上で行なうものである。音声ファイルを音声ファイルサーバ上に格納することにより、PDAなどの携帯端末上での記録処理を不要とするものである。
【0089】
図7は、本発明の第3の音声ファイル記録システムの構成を説明する図である。
【0090】
実施形態3の音声ファイル記録システムは、実施形態1と同様、音声記録用途以外の用途を持つ任意のアプリケーション10、利用者用語情報抽出部20、音声認識辞書管理部30、音声認識辞書31、音声入力部40、音声認識部50、代表利用者用語情報選択部60、音声ファイル記録部70を備え、さらに、音声ファイル転送部91を備えている。また、ネットワーク100上に音声ファイルサーバ300を備えている。
【0091】
音声ファイル転送部91は、音声入力部40を介して音声ファイル記録部70に一時記憶されている音声ファイルを、ネットワーク100を介して音声ファイルサーバ300に転送する処理を行なう。また、音声ファイル記録部70内には、音声ファイルのファイル名と音声ファイルサーバのネットワークアドレスを記録しておく。さらに、ダイジェスト音声データを記録することも可能である。
【0092】
ダイジェスト音声データは、音声ファイルの音声データの一部を抽出したものである。例えば、音声ファイルの音声データの冒頭部分を抽出したもので良い。ダイジェスト音声データは容量が小さいので小さいメモリ容量で多数のダイジェスト音声データを記録することができ、また、一つ一つは短い時間で再生できるので、音声ファイルの内容を端的に把握する手掛かりとすることができる。図8は、ダイジェスト音声データを利用する場合の音声ファイル記録処理の流れを模式的に示した図である。図8には模式的に音声ファイル記録部70と音声ファイルサーバ300のみを示している。音声ファイル記録部70には音声ファイルのファイル名、音声ファイルサーバ300のアドレスデータ、ダイジェスト音声データのみが記録され、音声ファイル本体は音声ファイルサーバ300にアップロードされ、格納されている。
【0093】
なお、ダイジェスト音声データを記録する構成の場合、音声ファイル記録部70がダイジェスト音声データ生成部71を備える。ダイジェスト音声データ生成部71は音声ファイルの音声データの一部を抽出し、音声ファイルのダイジェスト音声データを生成する部分である。
【0094】
(実施形態4)
実施形態4にかかる第4の音声ファイル記録システムは、音声ファイル内の音声データの認識結果を本文とする電子メールを生成する機能を備えたものである。
【0095】
図9は本発明の第4の音声ファイル記録システムの構成を説明する図である。実施形態4の音声ファイル記録システムは、実施形態1と同様、音声記録用途以外の用途を持つアプリケーション10、利用者用語情報抽出部20、音声認識辞書管理部30、音声認識辞書31、音声入力部40、音声認識部50、代表利用者用語情報選択部60、音声ファイル記録部70を備え、さらに、電子メール生成部95を備えている。
【0096】
電子メール生成部95は、音声認識部50の音声認識結果を受け、音声ファイルの音声データの認識結果を本文とする電子メールを生成する部分である。ここで、電子メール生成部95は、代表利用者用語情報選択部60から代表利用者用語情報を受け、電子メールのタイトル名と添付ファイルとする音声ファイルのファイル名を代表利用者用語情報に基づいて付与する。
【0097】
また、音声ファイルを音声ファイルサーバに記録する構成である場合、電子メール生成部95は、音声ファイルのファイル名と音声ファイルサーバのネットワークアドレスを電子メールの本文として生成し、音声ファイル内の音声データの認識結果に含まれる利用者の用語情報に基づいて電子メールのタイトルを生成する。
【0098】
利用者用語情報抽出部20による利用者の用語情報の抽出処理、音声認識辞書管理部30による音声認識辞書の語彙の追加処理は、実施形態1で説明した図2のフローチャートと同様で良い。
【0099】
音声認識処理の流れは実施形態1で説明した図3のフローチャートと同様に、図10に示すように、音声入力部40を介した音声入力処理(ステップS1001)、音声認識部50による音声認識処理(ステップS1002)、代表利用者用語情報選択部60による代表利用者用語情報の選択処理(ステップS1003)が行なわれる。次に、電子メール生成部95は、音声認識部50の音声認識結果を受け、音声ファイル内の音声データの認識結果を本文とする電子メールを生成し(ステップS1004)、代表利用者用語情報選択部60から代表利用者用語情報を受け、電子メールのファイル名を代表利用者用語情報に基づいて付与し(ステップS1005)、さらに、電子メールのタイトルを音声ファイル内の音声データの認識結果に含まれる利用者の用語情報に基づいて生成する(ステップS1006)。生成した電子メールを相手先アドレスに宛てて送信する(ステップS1007)。
【0100】
(実施形態5)
本発明の音声認識処理および音声ファイル記録処理は、上記に説明した処理を実現するステップを記述したプログラムとして記述することができ、当該プログラムをコンピュータに読み取らせることにより、本発明の音声ファイル記録処理を実行することができる。本発明の音声ファイル記録システムを実現する処理ステップを備えたプログラムは、図11に図示した例のように、CD−ROM1002やフレキシブルディスク1003等の可搬型記録媒体1001だけでなく、ネットワーク上にある記録装置内の記録媒体1000や、コンピュータのハードディスクやRAM等の記録媒体1005に格納して提供することができ、ネットワークからダウンロードすることもできる。プログラム実行時には、プログラムはコンピュータ1004上にローディングされ、主メモリ上で実行される。
【0101】
(付記)
本発明の音声認識システムおよび音声ファイル記録システムに関し、以下の項をさらに開示する。
【0102】
(付記1) 利用者が任意のアプリケーションに対して入力した情報から前記利用者の用語情報を抽出する利用者用語情報抽出部と、
音声認識辞書を備え、前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する音声認識辞書管理部と、
前記利用者の音声データを入力する音声入力部と、
前記音声認識辞書を用いて前記音声データの音声認識を実行する音声認識部を備えることを特徴とする音声認識システム(1)。
【0103】
(付記2) 前記音声認識辞書より多い語彙数を持つ他の音声認識辞書を用いて音声認識を実行する音声認識サーバをネットワーク上に備え、
前記音声認識部による認識率または信頼度が所定値より低い場合、前記音声認識部がネットワークを介して前記音声データを前記音声認識サーバに対して送信し、
前記音声認識サーバが前記音声データの音声認識処理を実行し、当該音声認識結果を前記音声入力部に送信する付記1に記載の音声認識システム(2)。
【0104】
(付記3) 前記音声認識辞書管理部が、前記音声認識サーバによる音声認識の結果に基づいて、前記音声認識辞書の語彙を追加する付記2に記載の音声認識システム(3)。
【0105】
(付記4) さらに、前記音声認識辞書管理部による前記音声認識辞書の語彙の追加を実行するか否かを利用者が選択する選択部を備えた付記3に記載の音声認識システム。
【0106】
(付記5) 利用者が任意のアプリケーションに対して入力した情報から前記利用者の用語情報を抽出する利用者用語情報抽出部と、
音声認識辞書を備え、前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する音声認識辞書管理部と、
前記利用者の音声データを入力する音声入力部と、
入力された前記音声データを音声ファイルとして記録する音声ファイル記録部と、
前記音声認識辞書を用いて前記音声データの音声認識を実行する音声認識部と、
前記音声認識の結果に含まれる前記利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択する代表利用者用語情報選択部を備え、
前記音声ファイル記録部が、前記音声ファイルのファイル名を、前記代表利用者用語情報に基づいて付与することを特徴とする音声ファイル記録システム(4)
(付記6) 前記音声認識辞書より多い語彙数を持つ他の音声認識辞書を用いて音声認識を実行する音声認識サーバをネットワーク上に備え、
前記音声認識部による認識率または信頼度が所定値より低い場合、前記音声ファイル記録部が、ネットワークを介して前記音声ファイルを前記音声認識サーバに対して送信し、
前記音声認識サーバが前記音声データの音声認識処理を実行し、
前記代表利用者用語情報選択部が、前記ネットワークを介して前記音声認識サーバから音声認識結果を浮け、前記音声認識サーバによる音声認識の結果に含まれる前記利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択する付記5に記載の音声ファイル記録システム(4)。
【0107】
(付記7) 前記音声ファイルを格納する音声ファイルサーバをネットワーク上に備え、
前記音声ファイル記録部が、前記音声ファイルと検索キーワードを前記ネットワークを介して前記音声ファイルサーバに転送して、当該音声ファイルサーバ内に前記音声ファイルを格納し、
前記音声ファイル記録部内には、前記音声ファイルのファイル名と前記検索キーワードと前記音声ファイルサーバのネットワークアドレスを記録する付記5または6に記載の音声ファイル記録システム(5)。
【0108】
(付記8) さらに、前記音声ファイル記録部による前記音声ファイルサーバへの前記音声ファイルの転送に先立ち、前記音声ファイルに記録されている音声データの一部を抽出し、前記音声ファイルのダイジェスト音声データを生成するダイジェスト音声データ生成部を備え、
前記音声ファイル記録部は、前記音声ファイルのファイル名と前記検索キーワードと前記音声ファイルサーバのネットワークアドレスに加え、前記ダイジェスト音声データを記録する付記7に記載の音声ファイル記録システム(6)。
【0109】
(付記9) さらに、タイトルと本文からなる電子メールを生成する電子メール生成部を備え、前記電子メール生成部が、前記音声ファイル内の音声データの認識結果の内容を前記電子メールの本文とし、前記音声ファイル内の音声データの認識結果に含まれる前記利用者の用語情報を前記電子メールのタイトルとし、前記電子メールのファイル名を前記代表利用者用語情報に基づいて付与する付記5または6に記載の音声ファイル記録システム(7)。
【0110】
(付記10) さらに、タイトルと本文からなる電子メールを生成する電子メール生成部を備え、前記電子メール生成部が、前記音声ファイルのファイル名と前記音声ファイルサーバのネットワークアドレスを前記電子メールの本文とし、前記音声ファイル内の音声データの認識結果に含まれる前記利用者の用語情報を前記電子メールのタイトルとする付記7に記載の音声ファイル記録システム(8)。
【0111】
(付記11) 任意のアプリケーションに対して利用者が入力した情報から前記利用者の用語情報を抽出し、
音声認識辞書を保持し、抽出した前記利用者の用語情報を基に前記音声認識辞書の語彙を追加し、
前記利用者の音声データを入力し、
前記音声認識辞書を用い、前記音声データの音声認識を実行することを特徴とする音声認識方法(9)。
【0112】
(付記12) 入力された音声データを認識する音声認識処理プログラムであって、
任意のアプリケーションに対して利用者が入力した情報から前記利用者の用語情報を抽出する処理ステップと、
音声認識辞書を保持し、抽出した前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する処理ステップと、
前記利用者の音声データを入力する処理ステップと、
前記音声認識辞書を用い、前記音声データの音声認識を実行する処理ステップとを備えたことを特徴とする音声認識処理プログラム(10)。
【0113】
(付記13) 任意のアプリケーションに対して利用者が入力した情報から前記利用者の用語情報を抽出し、
音声認識辞書を保持し、抽出した前記利用者の用語情報を基に前記音声認識辞書の語彙を追加し、
前記利用者の音声データを入力し、
入力された前記音声データを音声ファイルとして記録し、
前記音声認識辞書を用い、前記音声データの音声認識を実行し、
前記音声認識の結果に含まれる前記利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択し、
前記音声ファイルのファイル名を、前記代表利用者用語情報に基づいて付与することを特徴とする音声ファイル記録方法。
【0114】
(付記14) 入力された音声データを音声ファイルとして記録する音声ファイル記録処理プログラムであって、
任意のアプリケーションに対して利用者が入力した情報から前記利用者の用語情報を抽出する処理ステップと、
音声認識辞書を保持し、抽出した前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する処理ステップと、
前記利用者の音声データを入力する処理ステップと、
入力された前記音声データを音声ファイルとして記録する処理ステップと、
前記音声認識辞書を用い、前記音声データの音声認識を実行する処理ステップと、
前記音声認識の結果に含まれる前記利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択する処理ステップと、
前記音声ファイルのファイル名を、前記代表利用者用語情報に基づいて付与する処理ステップを備えたことを特徴とする音声ファイル記録処理プログラム。
【0115】
【発明の効果】
本発明の第1の音声ファイル記録システムによれば、代表利用者用語情報を基に音声メモ情報の内容を端的に把握できるファイル名を自動的に付与することができる。また、利用者用語情報を用いて利用者による入力が想定される単語を効率良くカバーする語彙を備えた音声認識辞書を自動的に生成することができる。
【0116】
また、本発明の第2の音声ファイル記録システムによれば、ネットワークを介して音声認識処理を音声認識サーバで実行させることができ、PDAなどの携帯端末の処理負荷を低減することができる。
【0117】
また、本発明の第3の音声ファイル記録システムによれば、音声ファイルを音声ファイルサーバ上に格納することができ、PDAなどの携帯端末のメモリ容量を低減することができる。
【0118】
また、本発明の第4の音声ファイル記録システムによれば、音声ファイル内の音声データの認識結果を電子メールの本文とし、音声ファイルのファイル名、音声ファイルサーバのネットワークアドレス、ダイジェスト音声データなどを本文とすることもできる。電子メールのタイトルは、音声ファイル内の音声データの認識結果に含まれる利用者の用語情報に基づいて生成することができる。
【図面の簡単な説明】
【図1】 本発明の第1の音声ファイル記録システムの構成を説明する図
【図2】 音声ファイル記録システムの処理の流れを示すフローチャート
【図3】 音声認識処理、音声ファイル記録処理、音声ファイル名自動付与処理の流れを示すフローチャート
【図4】 音声認識辞書の語彙を模式的に説明した図
【図5】 本発明の第2の音声ファイル記録システムの構成を説明する図
【図6】 本発明の第2の音声ファイル記録システムの音声認識処理、音声ファイル記録処理、音声ファイル名自動付与処理の流れを示すフローチャート
【図7】 本発明の第3の音声ファイル記録システムの構成を説明する図
【図8】 ダイジェスト音声情報を利用する場合の音声ファイル記録処理の流れを模式的に示した図
【図9】 本発明の第4の音声ファイル記録システムの構成を説明する図
【図10】 本発明の第4の音声ファイル記録システムの処理の流れを示すフローチャート
【図11】 本発明の音声ファイル記録システムを実現する処理ステップを記録した記録媒体の例を示す図
【図12】 音声入力された音声メモ情報を音声ファイルとして記録する従来の音声メモ情報記録システムを説明する図
【図13】 従来技術における音声認識処理を伴う音声メモ情報記録システムを説明する図
【符号の説明】
10 音声記録用途以外の用途を持つアプリケーション
20 利用者用語情報抽出部
30 音声認識辞書管理部
31 音声認識辞書
40 音声入力部
50 音声認識部
60 代表利用者用語情報選択部
70 音声ファイル記録部
71 ダイジェスト音声情報生成部
80 音声認識切換部
90 音声データ転送部
91 音声ファイル転送部
95 電子メール生成部
100 ネットワーク
200 音声認識サーバ
300 音声ファイルサーバ
510 マイクロフォン
520 音声ファイル記録部
530 音声ファイル名入力部
540 音声ファイル再生部
610 マイクロフォン
620 音響解析部
630 音響モデル
640 音声認識辞書
650 照合部
1000 回線先のハードディスク等の記録媒体
1001 CD−ROMやフレキシブルディスク等の可搬型記録媒体
1002 CD−ROM
1003 フレキシブルディスク
1004 コンピュータ
1005 コンピュータ上のRAM/ハードディスク等の記録媒体

Claims (10)

  1. 利用者が音声記録用途以外の用途を持つ任意のアプリケーションに対して入力した情報から前記利用者が良く用いる用語情報または前記利用者が用いる独特の用語情報を抽出する利用者用語情報抽出部と、
    音声認識辞書を備え、前記利用者用語情報抽出部によって抽出された前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する音声認識辞書管理部と、
    前記利用者の音声データを入力する音声入力部と、
    前記音声認識辞書を用いて前記音声データの音声認識を実行する音声認識部を備えることを特徴とする音声認識システム。
  2. 前記音声認識辞書より多い語彙数を持つ他の音声認識辞書を用いて音声認識を実行する音声認識サーバをネットワーク上に備え、
    前記音声認識部による認識率または信頼度が所定値より低い場合、前記音声認識部がネットワークを介して前記音声データを前記音声認識サーバに対して送信し、
    前記音声認識サーバが前記音声データの音声認識処理を実行し、当該音声認識結果を前記音声入力部に送信する請求項1に記載の音声認識システム。
  3. 前記音声認識辞書管理部が、前記音声認識サーバによる音声認識の結果に基づいて、前記音声認識辞書の語彙を追加する請求項2に記載の音声認識システム。
  4. 請求項1または2に記載の音声認識システムから音声認識結果を入力し、前記音声認識結果に含まれる前記利用者の用語情報を抽出し、当該利用者の用語情報の中から一又は複数の利用者用語情報を代表利用者用語情報として選択する代表利用者用語情報選択部と、
    前記音声データを音声ファイルとして記録する音声ファイル記録部を備え、
    前記音声ファイル記録部が、前記音声ファイルのファイル名を、前記代表利用者用語情報に基づいて付与することを特徴とする音声ファイル記録システム。
  5. 前記音声ファイルを格納する音声ファイルサーバをネットワーク上に備え、
    前記音声ファイル記録部が、前記音声ファイルと検索キーワードを前記ネットワークを介して前記音声ファイルサーバに転送して、当該音声ファイルサーバ内に前記音声ファイルを格納し、
    前記音声ファイル記録部内には、前記音声ファイルのファイル名と前記検索キーワードと前記音声ファイルサーバのネットワークアドレスを記録する請求項4に記載の音声ファイル記録システム。
  6. さらに、前記音声ファイル記録部による前記音声ファイルサーバへの前記音声ファイルの転送に先立ち、前記音声ファイルに記録されている音声データの一部を抽出し、前記音声ファイルのダイジェスト音声データを生成するダイジェスト音声データ生成部を備え、
    前記音声ファイル記録部は、前記音声ファイルのファイル名と前記検索キーワードと前記音声ファイルサーバのネットワークアドレスに加え、前記ダイジェスト音声データを記録する請求項5に記載の音声ファイル記録システム。
  7. さらに、タイトルと本文からなる電子メールを生成する電子メール生成部を備え、前記電子メール生成部が、前記音声ファイル内の音声データの認識結果の内容を前記電子メールの本文とし、前記音声ファイル内の音声データの認識結果に含まれる前記利用者の用語情報を前記電子メールのタイトルとし、前記電子メールのファイル名を前記代表利用者用語情報に基づいて付与する請求項4に記載の音声ファイル記録システム。
  8. さらに、タイトルと本文からなる電子メールを生成する電子メール生成部を備え、前記電子メール生成部が、前記音声ファイルのファイル名と前記音声ファイルサーバのネットワークアドレスを前記電子メールの本文とし、前記音声ファイル内の音声データの認識結果に含まれる前記利用者の用語情報を前記電子メールのタイトルとする請求項5に記載の音声ファイル記録システム。
  9. 音声記録用途以外の用途を持つ任意のアプリケーションに対して利用者が入力した情報から前記利用者が良く用いる用語情報または前記利用者が用いる独特の用語情報を抽出し、
    音声認識辞書を保持し、抽出した前記利用者の用語情報を基に前記音声認識辞書の語彙を追加し、
    前記利用者の音声データを入力し、
    前記音声認識辞書を用い、前記音声データの音声認識を実行することを特徴とする音声認識方法。
  10. 入力された音声データを認識する音声認識処理プログラムであって、
    音声記録用途以外の用途を持つ任意のアプリケーションに対して利用者が入力した情報から前記利用者が良く用いる用語情報または前記利用者が用いる独特の用語情報を抽出する処理ステップと、
    音声認識辞書を保持し、抽出した前記利用者の用語情報を基に前記音声認識辞書の語彙を追加する処理ステップと、
    前記利用者の音声データを入力する処理ステップと、
    前記音声認識辞書を用い、前記音声データの音声認識を実行する処理ステップとを備えたことを特徴とする音声認識処理プログラム。
JP2002054368A 2002-02-28 2002-02-28 音声認識システムおよび音声ファイル記録システム Expired - Fee Related JP4017887B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002054368A JP4017887B2 (ja) 2002-02-28 2002-02-28 音声認識システムおよび音声ファイル記録システム
US10/285,482 US7979278B2 (en) 2002-02-28 2002-11-01 Speech recognition system and speech file recording system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002054368A JP4017887B2 (ja) 2002-02-28 2002-02-28 音声認識システムおよび音声ファイル記録システム

Publications (2)

Publication Number Publication Date
JP2003255982A JP2003255982A (ja) 2003-09-10
JP4017887B2 true JP4017887B2 (ja) 2007-12-05

Family

ID=27750966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002054368A Expired - Fee Related JP4017887B2 (ja) 2002-02-28 2002-02-28 音声認識システムおよび音声ファイル記録システム

Country Status (2)

Country Link
US (1) US7979278B2 (ja)
JP (1) JP4017887B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220027316A1 (en) * 2020-07-21 2022-01-27 International Business Machines Corporation Cognitive digital file naming

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US20060095266A1 (en) * 2004-11-01 2006-05-04 Mca Nulty Megan Roaming user profiles for speech recognition
US8060368B2 (en) 2005-12-07 2011-11-15 Mitsubishi Electric Corporation Speech recognition apparatus
US20070174326A1 (en) * 2006-01-24 2007-07-26 Microsoft Corporation Application of metadata to digital media
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
US20080243485A1 (en) * 2007-03-29 2008-10-02 Nokia Corporation Method, apparatus, system, user interface and computer program product for use with managing content
US20090248397A1 (en) * 2008-03-25 2009-10-01 Microsoft Corporation Service Initiation Techniques
KR101977072B1 (ko) * 2012-05-07 2019-05-10 엘지전자 주식회사 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기
US20140006825A1 (en) * 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
CN105096950A (zh) * 2014-05-22 2015-11-25 中兴通讯股份有限公司 一种文件命名方法、装置及终端
KR102300415B1 (ko) * 2014-11-17 2021-09-13 주식회사 엘지유플러스 이동통신단말기의 음성메모에 기초한 이벤트실행 시스템, 그 단말기 제어서버 및 이동통신단말기 제어방법, 이동통신단말기 및 어플리케이션 실행방법
CN107193808A (zh) * 2017-05-18 2017-09-22 上海思依暄机器人科技股份有限公司 一种异种语言之间的对话方法及系统
KR20220116605A (ko) * 2021-02-15 2022-08-23 주식회사 카카오브이엑스 스마트 캐디 시스템 및 그 방법

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH099199A (ja) * 1995-06-19 1997-01-10 Sony Corp 映像信号記録/再生装置
US5903871A (en) * 1996-04-22 1999-05-11 Olympus Optical Co., Ltd. Voice recording and/or reproducing apparatus
JPH11184491A (ja) * 1997-12-18 1999-07-09 Ricoh Co Ltd 音声認識装置
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
JP4036528B2 (ja) * 1998-04-27 2008-01-23 富士通株式会社 意味認識システム
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
JP2000020279A (ja) 1998-07-03 2000-01-21 Olympus Optical Co Ltd 音声情報送信プログラムを記録した記録媒体、音声情報送信装置
US6185530B1 (en) * 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
JP2000089931A (ja) * 1998-09-16 2000-03-31 Canon Inc 音声データ処理方法及びシステム並びに記憶媒体
US6839669B1 (en) * 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
JP2000181492A (ja) * 1998-12-16 2000-06-30 Olympus Optical Co Ltd 音声情報処理装置および音声情報を処理するための処理プログラムを記録した記録媒体
JP2000221990A (ja) * 1999-01-28 2000-08-11 Ricoh Co Ltd 音声認識装置
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
US6308151B1 (en) * 1999-05-14 2001-10-23 International Business Machines Corp. Method and system using a speech recognition system to dictate a body of text in response to an available body of text
US6334102B1 (en) * 1999-09-13 2001-12-25 International Business Machines Corp. Method of adding vocabulary to a speech recognition system
US6434547B1 (en) * 1999-10-28 2002-08-13 Qenm.Com Data capture and verification system
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP3477432B2 (ja) * 2000-08-04 2003-12-10 旭化成株式会社 音声認識方法およびサーバならびに音声認識システム
JP4283984B2 (ja) * 2000-10-12 2009-06-24 パイオニア株式会社 音声認識装置ならびに方法
EP1217610A1 (de) * 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
US6915262B2 (en) * 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
US7103533B2 (en) * 2001-02-21 2006-09-05 International Business Machines Corporation Method for preserving contextual accuracy in an extendible speech recognition language model
US6687671B2 (en) * 2001-03-13 2004-02-03 Sony Corporation Method and apparatus for automatic collection and summarization of meeting information
AU2002314933A1 (en) * 2001-05-30 2002-12-09 Cameronsound, Inc. Language independent and voice operated information management system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220027316A1 (en) * 2020-07-21 2022-01-27 International Business Machines Corporation Cognitive digital file naming
US11561932B2 (en) * 2020-07-21 2023-01-24 International Business Machines Corporation Cognitive digital file naming

Also Published As

Publication number Publication date
US7979278B2 (en) 2011-07-12
US20030163308A1 (en) 2003-08-28
JP2003255982A (ja) 2003-09-10

Similar Documents

Publication Publication Date Title
JP4017887B2 (ja) 音声認識システムおよび音声ファイル記録システム
US6366882B1 (en) Apparatus for converting speech to text
US6775651B1 (en) Method of transcribing text from computer voice mail
US20130090921A1 (en) Pronunciation learning from user correction
CN104252464B (zh) 信息处理方法和装置
KR20030010729A (ko) 사람에 대한 정보를 관리하는 방법 및 장치
CN1934848A (zh) 用于语音交互式消息传送的方法和设备
GB2323694A (en) Adaptation in speech to text conversion
JP5274711B2 (ja) 音声認識装置
WO2006126649A1 (ja) 音声編集装置、音声編集方法、および、音声編集プログラム
KR102312993B1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
US7349844B2 (en) Minimizing resource consumption for speech recognition processing with dual access buffering
CN109102807A (zh) 个性化语音数据库创建系统、语音识别控制系统与终端
EP2009882A2 (en) A device method and system for communication session storage
US7428491B2 (en) Method and system for obtaining personal aliases through voice recognition
US20030055642A1 (en) Voice recognition apparatus and method
JP2011064969A (ja) 音声認識装置及び音声認識方法
KR102279505B1 (ko) 음성 일기 장치
CN107786719A (zh) 语音文件转换方法、装置及移动终端
US20080133240A1 (en) Spoken dialog system, terminal device, speech information management device and recording medium with program recorded thereon
JP2001272992A (ja) 音声処理システムおよびテキスト読上げシステムおよび音声認識システムおよび辞書獲得方法および辞書登録方法および端末装置および辞書サーバーおよび記録媒体
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
CN110309270B (zh) 聊天机器人的唱歌答复技术
Jeevitha et al. A study on innovative trends in multimedia library using speech enabled softwares
KR20220050342A (ko) 음성 합성 서비스를 제공하는 장치, 단말기 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040311

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070423

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070919

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110928

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130928

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees