JP2001134289A - 音声認識システム、方法及び記録媒体 - Google Patents

音声認識システム、方法及び記録媒体

Info

Publication number
JP2001134289A
JP2001134289A JP31691499A JP31691499A JP2001134289A JP 2001134289 A JP2001134289 A JP 2001134289A JP 31691499 A JP31691499 A JP 31691499A JP 31691499 A JP31691499 A JP 31691499A JP 2001134289 A JP2001134289 A JP 2001134289A
Authority
JP
Japan
Prior art keywords
voice
symbol
silent
character string
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP31691499A
Other languages
English (en)
Inventor
Hiroki Tanioka
広樹 谷岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP31691499A priority Critical patent/JP2001134289A/ja
Publication of JP2001134289A publication Critical patent/JP2001134289A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 表現力に富んだ文書を音声認識により作成す
る。 【解決手段】 話者がマイクロフォン1Aから音声を入
力すると、これがインターフェース1Bからデジタルの
音声情報として音声認識装置2に渡される。音声認識部
2Aは、渡された音声情報を1以上の文字からなるテキ
ストに変換する。無音部分検出部2Bは、渡された音声
情報における無音部分を検出する。音声変化検出部2C
は、無音部分の前の所定範囲における周波数等の音声変
化を検出する。音声認識装置2で生成された情報は文書
作成装置3に渡され、記号挿入部3Aは、音声変化検出
部2Cが検出した音声変化に応じて、“、”、“。”、
“?”、“!”等のうちから最適な記号を選択する。そ
して、選択した記号を、テキスト中の無音部分に対応す
る部分に挿入する。こうして記号が挿入されたテキスト
から表示データ作成部4Cにより表示データが作成さ
れ、表示装置5に表示される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識システ
ム、方法及びこのようなシステムを実現するためのプロ
グラムを記録したコンピュータ読み取り可能な記録媒体
に関し、特に音声認識の結果生成されたテキストに、例
えば、“?”、“!”等の記号を挿入するための技術に
関する。
【0002】
【従来の技術】従来より、マイクロフォンから入力され
た音声を音声認識し、テキストに変換して出力する音声
認識システムがある。特開平8−2015号公報は、こ
のような音声認識システムを応用したプリンタ装置を開
示している。このプリンタ装置は、音声情報から無音部
分を検出して、音声認識により生成した文字列中の無音
部分に対応する箇所に句読点を挿入するものである。
【0003】このプリンタ装置では、無音部分に句
点“。”と読点“、”とのいずれを挿入するかを、具体
的には、無音部分の時間的な長さと、無音部分の前にあ
る文字列の種類によって決めている。すなわち、無音部
分の時間が比較的長く、その前にある文字列が「で
す」、「ます」等である場合は句点を、無音部分の時間
が比較的短く、その前にある文字列が「が」、「と」等
である場合は読点を挿入することとしている(上記公報
段落0030参照)。
【0004】
【発明が解決しようとする課題】しかしながら、会話文
では、倒置や体言止め等の表現が頻繁に使われる。ま
た、無音部分が長いからといって、必ずしも文の終わり
となるわけではない。従って、上記のプリンタ装置で
は、句点と読点とが必ずしも正確に文字列中に挿入され
ない場合があるという問題があった。
【0005】また、会話文を文章に表す場合、話者の意
図を忠実に表すために“?”、”!”、“…”等の記号
が頻繁に使われる場合が多い。しかし、上記のプリンタ
装置では、これらの記号を文字列中に挿入することを考
慮していない。仮にこれらの記号を無音部分に挿入する
としても、どのような場合にどの記号を挿入すればよい
かを判断することができない。従って、上記のプリンタ
装置では、特に会話文を作成する場合などに、作成され
た文書が表現力に乏しいという問題があった。
【0006】本発明は、表現力に富んだ文書を音声認識
により作成することができる音声認識システム、方法及
びそのためのプログラムを記録したコンピュータ読み取
り可能な記録媒体を提供することを目的とする。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、本発明の第1の観点にかかる音声認識システムは、
外部から入力された音声情報を、文字列に変換する音声
認識手段と、前記音声情報が示す音声の音量が所定値以
下の無音部分を、前記音声情報に基づいて検出する無音
部分検出手段と、前記無音部分検出手段が検出した無音
部分の前または後の少なくとも一方の所定範囲において
前記音声情報が示す音声がどのように変化しているか
を、前記音声情報に基づいて検出する音声変化検出手段
と、前記音声変化検出手段の検出結果に応じて記号を選
択して、前記音声認識手段が変換した文字列中の無音部
分に対応する部分に挿入する記号挿入手段とを備えるこ
とを特徴とする。
【0008】上記第1の観点にかかる音声認識システム
では、無音部分があると、文字列中の対応する位置に記
号が挿入されることとなる。しかも、どのような記号が
挿入されるかは、音声の変化に従って選択されることと
なる。例えば、抑揚がつけられていない部分で
は、“。”を挿入したり、抑揚がつけられている部分で
は“!”を挿入したりということができる。このため、
この音声認識システムによれば、音声認識によって作成
した文書を表現力が豊かなものとすることができる。
【0009】上記第1の観点にかかる音声認識システム
において、前記音声変化検出手段は、例えば、前記音声
情報が示す音声の速度、音量及び周波数の少なくとも1
つがどのように変化しているかを検出するものとするこ
とができる。
【0010】上記第1の観点にかかる音声認識システム
は、前記音声変化検出手段が検出した音声の変化と対応
する文字列との関係の傾向を学習する学習手段をさらに
備えていてもよい。この場合、前記記号挿入手段は、さ
らに前記学習手段に蓄積された学習結果に応じて記号を
選択して、前記文字列中の無音部分に対応する部分に挿
入するものとすることができる。
【0011】上記第1の観点にかかる音声認識システム
は、前記無音部分検出手段が検出した無音部分の前また
は後の少なくとも一方の所定範囲に対応する文字列を構
文解析する構文解析手段をさらに備えていてもよい。こ
の場合、前記記号挿入手段は、さらに前記構文解析手段
の解析結果に応じて記号を選択して、前記文字列中の無
音部分に対応する部分に挿入するものとすることができ
る。
【0012】上記目的を達成するため、本発明の第2の
観点にかかる音声認識システムは、外部から入力された
音声情報を、文字列に変換する音声認識手段と、前記音
声情報が示す音声の音量が所定値以下の無音部分を、前
記音声情報に基づいて検出する無音部分検出手段と、前
記無音部分検出手段が検出した無音部分の前または後の
少なくとも一方の所定範囲に対応する文字列を構文解析
する構文解析手段と、前記構文解析手段の解析結果に応
じて記号を選択して、前記音声認識手段が変換した文字
列中の無音部分に対応する部分に挿入する記号挿入手段
とを備えることを特徴とする。
【0013】上記第2の観点にかかる音声認識システム
では、無音部分があると、文字列中の対応する位置に記
号が挿入されることとなる。しかも、どのような記号が
挿入されるかは、構文によることとなる。例えば、平叙
文の後には“。”を、疑問文の後には“?”を挿入する
ことができる。このため、この音声認識システムによれ
ば、音声認識によって作成した文書を表現力が豊かなも
のとすることができる。
【0014】上記第1、第2の観点にかかる音声認識シ
ステムにおいて、前記記号挿入手段が選択対象としてい
る記号は、“?”及び“!”の少なくとも一方を含むも
のとすることができる。
【0015】上記目的を達成するため、本発明の第3の
観点にかかる音声認識方法は、外部から入力された音声
情報を、文字列に変換する音声認識ステップと、前記音
声情報が示す音声の音量が所定値以下の無音部分を、前
記音声情報に基づいて検出する無音部分検出ステップ
と、前記無音部分検出ステップで検出した無音部分の前
または後の少なくとも一方の所定範囲において前記音声
情報が示す音声がどのように変化しているかを、前記音
声情報に基づいて検出する音声変化検出ステップと、前
記音声変化検出ステップでの検出結果に応じて記号を選
択して、前記音声認識ステップで変換した文字列中の無
音部分に対応する部分に挿入する記号挿入ステップとを
含むことを特徴とする。
【0016】上記目的を達成するため、本発明の第4の
観点にかかる音声認識方法は、外部から入力された音声
情報を、文字列に変換する音声認識ステップと、前記音
声情報が示す音声の音量が所定値以下の無音部分を、前
記音声情報に基づいて検出する無音部分検出ステップ
と、前記無音部分検出ステップで検出した無音部分の前
または後の少なくとも一方の所定範囲に対応する文字列
を構文解析する構文解析ステップと、前記構文解析ステ
ップでの解析結果に応じて記号を選択して、前記音声認
識ステップで変換した文字列中の無音部分に対応する部
分に挿入する記号挿入ステップとを含むことを特徴とす
る。
【0017】上記目的を達成するため、本発明の第5の
観点にかかるコンピュータ読み取り可能な記録媒体は、
外部から入力された音声情報を、文字列に変換する音声
認識手段、前記音声情報が示す音声の音量が所定値以下
の無音部分を、前記音声情報に基づいて検出する無音部
分検出手段、前記無音部分検出手段が検出した無音部分
の前または後の少なくとも一方の所定範囲において前記
音声情報が示す音声がどのように変化しているかを、前
記音声情報に基づいて検出する音声変化検出手段、及び
前記音声変化検出手段の検出結果に応じて記号を選択し
て、前記音声認識手段が変換した文字列中の無音部分に
対応する部分に挿入する記号挿入手段としてコンピュー
タ装置を機能させるためのプログラムを記録したことを
特徴とする。
【0018】上記目的を達成するため、本発明の第6の
観点にかかるコンピュータ読み取り可能な記録媒体は、
外部から入力された音声情報を、文字列に変換する音声
認識手段、前記音声情報が示す音声の音量が所定値以下
の無音部分を、前記音声情報に基づいて検出する無音部
分検出手段、前記無音部分検出手段が検出した無音部分
の前または後の少なくとも一方の所定範囲に対応する文
字列を構文解析する構文解析手段、及び前記構文解析手
段の解析結果に応じて記号を選択して、前記音声認識手
段が変換した文字列中の無音部分に対応する部分に挿入
する記号挿入手段としてコンピュータ装置を機能させる
ためのプログラムを記録したことを特徴とする。
【0019】
【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
【0020】[第1の実施の形態]図1は、この実施の
形態にかかる音声認識システムの構成を示すブロック図
である。図示するように、この音声認識システムは、音
声情報入力装置1と、音声認識装置2と、文書作成装置
3と、表示データ作成装置4と、表示装置5とを備えて
いる。
【0021】音声情報入力装置1は、ユーザの声(音
声)を入力するユーザインターフェース装置であり、ユ
ーザが発した音声をアナログ電気信号に変換するマイク
ロフォン1Aと、マイクロフォン1Aから出力されたア
ナログ電気信号を所定のサンプリング間隔でデジタルの
音声情報に変換するインターフェース1Bとから構成さ
れている。
【0022】音声認識装置2は、インターフェース1B
が変換したデジタルの音声情報から、後述する第1、第
2の制御情報が付加された、1以上の文字からなる文字
列(テキスト)を生成するもので、音声認識部2Aと、
無音部分検出部2Bと、音声変化検出部2Cとを有す
る。
【0023】音声認識部2Aは、音声認識技術を適用す
ることにより、インターフェース1Bから入力された音
声情報をテキストに変換する。音声認識部2Aが音声情
報をテキストへ変換するために適用する音声認識技術に
は、従来より音声認識及び仮名漢字変換の分野で知られ
ている種々の技術を用いることができる。
【0024】無音部分検出部2Bは、インターフェース
1Bから渡された音声情報が示すボリュームが所定値以
下である無音部分を検出する。無音部分検出部2Bは、
無音部分の位置に対応するテキスト中の位置を調べ、そ
こに第1の制御情報を挿入する。
【0025】音声変化検出部2Cは、無音部分検出部2
Bが検出した無音部分の前の所定範囲について、インタ
ーフェース1Bから渡された音声情報で示される音声の
レベル(音量)、タイムスタンプ(速度)、及びピッチ
(周波数)の変化を検出する。これらの要素が所定の閾
値以上変化しているときに、音声変化検出部2Cは、そ
の要素の種類を示す情報と共に第2の制御情報を、テキ
ストに挿入する。
【0026】文書作成装置3は、音声認識装置2によっ
て作成されたテキストに、第1、第2の制御情報に従っ
て記号を挿入したテキストを作成するもので、記号挿入
部3Aを有する。
【0027】記号挿入部3Aは、第1の制御情報と共に
テキスト中に挿入された無音部分の長さを示す情報に従
って、選択候補となる記号を絞り込み、さらに第2の制
御情報が示す音声変化に従って、選択候補となった記号
から適切な記号を選択する。記号挿入部3Aは、選択し
た記号を、テキスト中の当該第1、第2の制御情報が付
加されていた位置に挿入すると共に、第1、第2の制御
情報を削除することによって、無音部分に記号の挿入さ
れたテキストを作成する。
【0028】表示データ作成装置4は、音声認識装置2
によって音声情報から変換されたテキストから表示装置
5に表示する表示データを作成するもので、表示条件設
定部4Aと、表示条件記憶部4Bと、表示データ作成部
4Cとを有する。
【0029】表示条件設定部4Aは、ユーザの操作によ
り、テキストを表示装置5に表示するための表示条件を
設定する。表示条件記憶部4Bは、表示条件設定部4A
から設定した表示条件を記憶する。この表示条件は、表
示装置5上での行数、行内の文字数、文字の色やフォン
トの種類、サイズなどの表示属性を含む。
【0030】表示データ作成部4Cは、表示条件記憶部
4Bに記憶した表示条件に従って、記号挿入部3Aが無
音部分に記号を挿入したテキストから、表示装置5に表
示するための表示データを作成する。
【0031】表示装置5は、CRT(Cathode Ray Tub
e)、LCD(Liquid Crystal Display)等から構成さ
れ、表示データ作成部4Cが作成した表示データを表示
して、ユーザに示すユーザインターフェース装置であ
る。
【0032】なお、この音声認識システムは、例えば、
図2に示すようなマイクロフォン1Aを有するパーソナ
ルコンピュータ等で実現される。ここで、音声認識装置
2、文書作成装置3及び表示データ作成装置4は、プロ
セッサとそのプログラムを記憶するメモリ、データを記
憶するメモリによって実現されるもので、現実には同一
のコンピュータシステム上で実現されていてもよい。こ
れらの装置2〜4を実現するためのプログラムは、CD
−ROMなどのコンピュータ読み取り可能な記録媒体に
記録して配布したり、ネットワークを通じて配信しても
よい。
【0033】以下、この実施の形態にかかる音声認識シ
ステムの動作について、図3のフローチャートを参照し
て説明する。
【0034】まず、このシステムのユーザは、所定の操
作を行って音声入力の開始を指示する(ステップS1
1)。次に、当該ユーザは、マイクロフォン1Aに向か
って生成したいテキストに対応する音声を発する。この
音声は、マイクロフォン1Aがアナログ電気信号に変換
し、インターフェース1Bがデジタルの音声情報に変換
して、音声認識装置2に渡す(ステップS12)。
【0035】次に、音声認識部2Aは、音声認識技術の
適用により、インターフェース1Bから渡された音声情
報を1以上の文字からなるテキストに変換する。音声認
識部2Aは、変換したテキストを無音部分検出部2Bに
渡す(ステップS13)。
【0036】次に、無音部分検出部2Bは、インターフ
ェース1Bから渡された音声情報が示すボリュームを解
析し、ボリュームが所定値以下であることが所定の閾値
以上の時間続く無音部分を検出すると共に、音声認識部
2Aで生成されたテキストの対応位置を検出する。無音
部分検出部2Bは、音声認識部2Aから渡されたテキス
ト中の無音部分に対応する位置に、無音部分があること
を示す第1の制御情報を無音部分の長さを示す情報と共
に挿入する。無音部分検出部2Bは、第1の制御情報を
挿入したテキストを音声変化検出部2Cに渡す(ステッ
プS14)。
【0037】次に、音声変化検出部2Cは、無音部分の
前の所定範囲について、インターフェース1Bから渡さ
れた音声情報のうちのレベル、タイムスタンプ及びピッ
チの変化を検出する。音声変化検出部2Cは、所定の閾
値以上の変化を検出した場合には、無音部分検出部2B
から渡されたテキスト中の当該無音部分に対応する位置
に、ボリューム、タイムスタンプ及びピッチの変化があ
ることを示す第2の制御情報を、変化している要素の種
類を示す情報と共に挿入する。音声変化検出部2Cは、
第2の制御情報を挿入したテキストを文書作成装置3に
渡す(ステップS15)。
【0038】次に、文書作成装置3では、記号挿入部3
Aが、音声変化検出部2Cから渡されたテキスト中で第
1の制御情報が付加されている位置に、第2の制御情報
に従って記号を選択して挿入する。記号を挿入する際、
テキスト中に挿入された第1、第2の制御情報を削除す
る。記号挿入部3Aは、記号を挿入したテキストを表示
データ作成装置4の表示データ作成部4Cに渡す(ステ
ップS16)。
【0039】なお、記号挿入部3Aによる記号の選択
は、例えば、次のようにして行われる。第1の制御情報
と共に付加された時間を示す情報により、無音部分の時
間が所定の閾値以上である場合は、記号挿入部3Aは、
“。”、“?”、“!”、“…。”、“…?”、“!
?”等を選択の候補とし、第2の制御情報を調べる。
【0040】第2の制御情報により、ボリューム、タイ
ムスタンプ、ピッチのいずれにも変化がない場合は、記
号挿入部3Aは、テキスト中の当該箇所に“。”の記号
(句点)を挿入する。ピッチが高くなり、他の要素に変
化がない場合は、“?”の記号を挿入する。ボリューム
が上昇し、他の要素に変化がない場合は、“!”の記号
を挿入する。また、ピッチが高くなり、ボリュームも上
昇している場合は、“!?”の記号を挿入する。
【0041】一方、無音部分の時間が所定の閾値よりも
短い場合は、記号挿入部3Aは、“、”、“…、”等を
選択の候補とする。第2の制御情報により、ボリュー
ム、タイムスタンプ、ピッチのいずれにも変化がない場
合は、記号挿入部3Aは、テキスト中の当該箇所
に“、”の記号(読点)を挿入する。ボリュームが下降
している場合は、“…、”の記号を挿入する。
【0042】図3のフローチャートに戻って説明を続け
ると、表示データ作成部4Cは、表示条件記憶部4Bに
記憶された表示条件に従い、記号挿入部3Aから渡され
たテキストから表示データを作成する。表示データ作成
部4Cは、作成した表示データを表示装置5に渡す(ス
テップS17)。そして、表示装置5は、表示データ作
成部4Cから渡された表示データを表示し(ステップS
18)、このフローチャートの処理を終了する。
【0043】以上説明したように、この実施の形態にか
かる音声認識システムでは、音声認識部2Aが変換した
テキスト中で、無音部分検出部2Bが検出した無音部分
に対応する位置に記号が挿入される。ここで、テキスト
中の無音部分に対応する位置に挿入される記号は、音声
変化検出部2Cが検出した音声変化の状態に従って選択
される。
【0044】つまり、ユーザがマイクロフォン1Aから
音声を入力することによって、記号の挿入されたテキス
トを自動的に作成することができ、しかも、挿入される
記号は、ユーザが発した音声の抑揚によって選択され、
ユーザの意図を反映したものとなる。このため、この実
施の形態にかかる音声認識システムによれば、音声認識
によって作成される文書を表現力に富んだものとするこ
とができる。
【0045】[第2の実施の形態]図4は、この実施の
形態にかかる音声認識システムの構成を示すブロック図
である。この音声認識システムは、音声認識装置2が音
声変化検出部2Cを有さず、文書作成装置3がさらに形
態素解析部3Bを備える点で、第1の実施の形態のもの
と異なる。また、記号挿入部3Aの動作が第1の実施の
形態のものと異なる。
【0046】この音声認識システムにおいて、文書作成
装置3は、無音部分検出部2Bから第1の制御情報の付
加されたテキストを渡される。形態素解析部3Bは、第
1の制御情報を無視して、渡されたテキストを形態素解
析し、その結果を記号挿入部3Aに渡す。記号挿入部3
Aは、各無音部分に記号を挿入する際に、その前の1文
の形態素解析の結果を調べ、その結果に応じた記号を選
択する。
【0047】以下、この実施の形態にかかる音声認識シ
ステムの動作について説明する。この実施の形態にかか
る音声認識システムでは、図3のフローチャートのステ
ップS14〜S16の動作が、第1の実施の形態のもの
と異なることとなる。
【0048】無音部分検出部2Bは、無音部分を検出し
てそこに第1の制御情報を挿入したテキストを生成する
と、これをそのまま文書作成装置3に渡す。文書作成装
置3では、まず、形態素解析部3Bが、第1の制御情報
を無視して無音部分検出部2Bから渡されたテキストを
形態素解析する。形態素解析部3Bは、その解析結果を
記号挿入部3Aに渡す。
【0049】次に、記号挿入部3Aは、音声変化検出部
2Cから渡されたテキスト中で第1の制御情報が付加さ
れている位置に、第2の制御情報に従って記号を選択し
て挿入する。記号を挿入する際、テキスト中に挿入され
た第1、第2の制御情報を削除する。記号挿入部3A
は、記号を挿入したテキストを表示データ作成装置4の
表示データ作成部4Cに渡す。
【0050】なお、記号挿入部3Aによる記号の挿入
は、例えば、次のようにして行われる。無音部分検出部
2Bから渡されたテキスト中で第1の制御情報が付加さ
れている位置があると、それよりも前にある“。”、
“?”、“!”などの記号(以下、終了記号:前の処理
で確定している)が付されている部分までの形態素解析
の結果を調べる。形態素解析の結果から、終了記号から
当該第1の制御情報の位置までの文章が構文的に成立し
ない場合には、記号挿入部3Aは、“、”の記号(読
点)を記号として選択し、テキスト中の第1の制御情報
が付加されている位置に挿入する。
【0051】一方、終了記号から当該第1の制御情報の
位置までの文章が構文的に成立する場合は、記号挿入部
3Aは、形態素解析結果をさらによく調べ、平叙文であ
るか、疑問文であるか、感嘆文であるか、或いは間投詞
であるかを調べる。平叙文であれば、記号挿入部3A
は、テキスト中の当該箇所に“。”の記号(句点)を挿
入する。疑問文であれば、“?”の記号を挿入する。感
嘆文であれば、“!”の記号を挿入する。間投詞であれ
ば、さらにその単語をよく調べて、“?”、“!”、
“?!”等の記号を挿入する。
【0052】また、記号挿入部3Aによる記号の挿入
は、次のように行ってもよい。テキスト中への“、”の
挿入を正確に行うため、大量のコーパスによる統計情報
を用いて選出した単語リストによるマッチングを行う。
大量のコーパスから、“、”が挿入される確率の高い単
語について、その単語の後に“、”が付くかどうかを確
率事象的にとらえたときの“、”が挿入される条件付き
確率から、条件付き自己情報量、条件付エントロピー、
相互情報量を求め、条件付き自己情報量による単語の選
出を行い、単語リストを作成する。
【0053】或いは、記号挿入部3Aによる記号の挿入
は、次のように行ってもよい。記号挿入部3Aは、無音
時間の長さにより選択する記号の候補に順位を与える。
例えば、無音時間の長さが短ければ、“、”を選択の第
1候補とする。これをテキスト中の対応部分に挿入する
ことが構文的に可能であれば、挿入する。挿入すること
が不可能であれば、次に“。”、“?”等を次候補とし
て、形態素解析結果に従って挿入する。
【0054】以上説明したように、この実施の形態にか
かる音声認識システムでは、音声認識部2Aが変換した
テキスト中で、無音部分検出部2Bが検出した無音部分
に対応する位置に記号が挿入される。ここで、テキスト
中の無音部分に対応する位置に挿入される記号は、形態
素解析部3Bがテキストを形態素解析した結果に従って
選択される。
【0055】つまり、ユーザがマイクロフォン1Aから
音声を入力することによって、記号の挿入されたテキス
トを自動的に作成することができ、しかも、挿入される
記号は、ユーザが入力した音声の文脈に対応したものと
なる。このため、この実施の形態にかかる音声認識シス
テムによれば、音声認識によって作成される文書を表現
力に富んだものとすることができる。
【0056】[実施の形態の変形]本発明は、上記の実
施の形態に限られず、種々の変形、応用が可能である。
以下、本発明に適用可能な上記の実施の形態の変形態様
について説明する。
【0057】上記の第1の実施の形態では、無音部分検
出部2Bが検出した無音部分の前の所定範囲における音
声変化を音声変化検出部2Cが検出し、これに基づいて
記号挿入部3Aが記号を選択していた。上記の第2の実
施の形態では、無音部分検出部2Bが検出した無音部分
の前の所定範囲におけるテキストを形態素解析部3Bが
形態素解析し、これに基づいて記号挿入部3Aが記号を
選択していた。が、音声変化検出部2Cと形態素解析部
3Bとを組み合わせることもできる。この場合、形態素
解析部3Bは、音声変化検出部2Cの検出結果だけで
は、選択する記号を絞り込めない場合に、補助的に使用
するものとしても構わない。また、音声変化の検出や形
態素解析は、無音部分より後ろの範囲でも行ってもよ
い。
【0058】上記の第1の実施の形態では、記号挿入部
3Aは、音声変化検出部2Cが検出した音声変化にのみ
基づいて、音声認識装置2で生成されたテキスト中に記
号を挿入していた。しかしながら、ユーザの発声方法を
学習し、これに基づいて記号を選択して挿入するように
してもよい。
【0059】図5は、他の実施の形態にかかる音声認識
システムを示すブロック図である。図5の音声認識シス
テムは、図1の構成に加えて、さらに学習手段6を有す
る。学習手段6は、指定した特定の単語について音声変
化検出部2Cが検出する音声変化の傾向を学習し、学習
結果を記号挿入部3Aに渡す。
【0060】この場合において、記号挿入部3Aは、さ
らに学習手段6の学習結果に基づいて、テキスト中の無
音部分に対応する部分に挿入する記号を選択するものと
することができる。このように音声変化検出部2Cが検
出した音声変化の傾向を学習していくことにより、例え
ば、ユーザの言葉の訛りなどによって通常はない抑揚が
生じてしまう単語の後ろに、不自然な記号が挿入されな
いようにすることができる。
【0061】上記の第1、第2の実施の形態では、無音
部分検出部2Bは、所定の閾値を設定し、ボリュームが
所定値以下である時間がこの閾値以上継続した場合に、
そこを無音部分として検出していた。しかしながら、無
音部分であるかどうかの基準は、このような固定のもの
とするのではなく、例えば、音声の速度に応じて可変の
ものとしてもよい。
【0062】上記の第1、第2の実施の形態では、記号
挿入部3Aは、“。”、“、”、“?”、“!”等の表
記される記号をテキスト中に挿入するものとしていた。
しかしながら、テキスト中に挿入することが可能な記号
は、表記されるものだけに限られない。例えば、無音部
分が特に長い場合などには、“。”、“?”、“!”等
の表記される記号と共に、表記されない記号である改行
記号を挿入するものとしてもよい。これにより、段落変
えも自動的に行えるようになり、より豊かに文章を表現
することができるようになる。
【0063】上記の第1、第2の実施の形態では、音声
情報を音声認識装置2に入力するユーザインターフェー
ス装置として、マイクロフォン1A及びインターフェー
ス1Bからなる音声情報入力装置1を適用していたが、
本発明はこれに限られない。例えば、予めカセットテー
プなどに記録された音声を、デジタルの音声情報に変換
して音声認識装置2に渡してもよい。また、予め音声を
サンプリングした音声情報を記録した媒体から音声情報
を読み取って、音声認識装置2に入力してもよい。
【0064】上記の第1、第2の実施の形態では、生成
されたテキストを外部に出力するユーザインターフェー
ス装置として、表示装置5を適用していたが、本発明は
これに限られない。例えば、テキストを紙などの媒体上
に印刷して出力するプリンタであってもよい。また、遠
隔地の端末装置にネットワークを介して送信し、該端末
装置から出力させる通信装置であってもよい。
【0065】
【発明の効果】以上説明したように、本発明によれば、
適切な記号を文字列中の適切な位置に挿入することがで
きるので、音声認識によって表現力に富んだ文書を容易
に作成することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態にかかる音声認識シ
ステムの構成を示すブロック図である。
【図2】図1の音声認識システムを実現するコンピュー
タ装置の外観図である。
【図3】図1の音声認識システムが実行する処理を示す
フローチャートである。
【図4】本発明の第2の実施の形態にかかる音声認識シ
ステムの構成を示すブロック図である。
【図5】本発明の他の実施の形態にかかる音声認識シス
テムの構成を示すブロック図である。
【符号の説明】
1 音声情報入力装置 1A マイクロフォン 1B インターフェース 2 音声認識装置 2A 音声認識部 2B 無音部分検出部 2C 音声変化検出部 3 文書作成装置 3A 記号挿入部 3B 形態素解析部 4 表示データ作成装置 4A 表示条件設定部 4B 表示条件記憶部 4C 表示データ作成部 5 表示装置 6 学習手段

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】外部から入力された音声情報を、文字列に
    変換する音声認識手段と、 前記音声情報が示す音声の音量が所定値以下の無音部分
    を、前記音声情報に基づいて検出する無音部分検出手段
    と、 前記無音部分検出手段が検出した無音部分の前または後
    の少なくとも一方の所定範囲において前記音声情報が示
    す音声がどのように変化しているかを、前記音声情報に
    基づいて検出する音声変化検出手段と、 前記音声変化検出手段の検出結果に応じて記号を選択し
    て、前記音声認識手段が変換した文字列中の無音部分に
    対応する部分に挿入する記号挿入手段とを備えることを
    特徴とする音声認識システム。
  2. 【請求項2】前記音声変化検出手段は、前記音声情報が
    示す音声の速度、音量及び周波数の少なくとも1つがど
    のように変化しているかを検出することを特徴とする請
    求項1に記載の音声認識システム。
  3. 【請求項3】前記音声変化検出手段が検出した音声の変
    化と対応する文字列との関係の傾向を学習する学習手段
    をさらに備え、 前記記号挿入手段は、さらに前記学習手段に蓄積された
    学習結果に応じて記号を選択して、前記文字列中の無音
    部分に対応する部分に挿入することを特徴とする請求項
    1または2に記載の音声認識システム。
  4. 【請求項4】前記無音部分検出手段が検出した無音部分
    の前または後の少なくとも一方の所定範囲に対応する文
    字列を構文解析する構文解析手段をさらに備え、 前記記号挿入手段は、さらに前記構文解析手段の解析結
    果に応じて記号を選択して、前記文字列中の無音部分に
    対応する部分に挿入することを特徴とする請求項1乃至
    3のいずれか1項に記載の音声認識システム。
  5. 【請求項5】外部から入力された音声情報を、文字列に
    変換する音声認識手段と、 前記音声情報が示す音声の音量が所定値以下の無音部分
    を、前記音声情報に基づいて検出する無音部分検出手段
    と、 前記無音部分検出手段が検出した無音部分の前または後
    の少なくとも一方の所定範囲に対応する文字列を構文解
    析する構文解析手段と、 前記構文解析手段の解析結果に応じて記号を選択して、
    前記音声認識手段が変換した文字列中の無音部分に対応
    する部分に挿入する記号挿入手段とを備えることを特徴
    とする音声認識システム。
  6. 【請求項6】前記記号挿入手段が選択対象としている記
    号は、“?”及び“!”の少なくとも一方を含むことを
    特徴とする請求項1乃至5のいずれか1項に記載の音声
    認識システム。
  7. 【請求項7】外部から入力された音声情報を、文字列に
    変換する音声認識ステップと、 前記音声情報が示す音声の音量が所定値以下の無音部分
    を、前記音声情報に基づいて検出する無音部分検出ステ
    ップと、 前記無音部分検出ステップで検出した無音部分の前また
    は後の少なくとも一方の所定範囲において前記音声情報
    が示す音声がどのように変化しているかを、前記音声情
    報に基づいて検出する音声変化検出ステップと、 前記音声変化検出ステップでの検出結果に応じて記号を
    選択して、前記音声認識ステップで変換した文字列中の
    無音部分に対応する部分に挿入する記号挿入ステップと
    を含むことを特徴とする音声認識方法。
  8. 【請求項8】外部から入力された音声情報を、文字列に
    変換する音声認識ステップと、 前記音声情報が示す音声の音量が所定値以下の無音部分
    を、前記音声情報に基づいて検出する無音部分検出ステ
    ップと、 前記無音部分検出ステップで検出した無音部分の前また
    は後の少なくとも一方の所定範囲に対応する文字列を構
    文解析する構文解析ステップと、 前記構文解析ステップでの解析結果に応じて記号を選択
    して、前記音声認識ステップで変換した文字列中の無音
    部分に対応する部分に挿入する記号挿入ステップとを含
    むことを特徴とする音声認識方法。
  9. 【請求項9】外部から入力された音声情報を、文字列に
    変換する音声認識手段、 前記音声情報が示す音声の音量が所定値以下の無音部分
    を、前記音声情報に基づいて検出する無音部分検出手
    段、 前記無音部分検出手段が検出した無音部分の前または後
    の少なくとも一方の所定範囲において前記音声情報が示
    す音声がどのように変化しているかを、前記音声情報に
    基づいて検出する音声変化検出手段、及び前記音声変化
    検出手段の検出結果に応じて記号を選択して、前記音声
    認識手段が変換した文字列中の無音部分に対応する部分
    に挿入する記号挿入手段としてコンピュータ装置を機能
    させるためのプログラムを記録したことを特徴とするコ
    ンピュータ読み取り可能な記録媒体。
  10. 【請求項10】外部から入力された音声情報を、文字列
    に変換する音声認識手段、 前記音声情報が示す音声の音量が所定値以下の無音部分
    を、前記音声情報に基づいて検出する無音部分検出手
    段、 前記無音部分検出手段が検出した無音部分の前または後
    の少なくとも一方の所定範囲に対応する文字列を構文解
    析する構文解析手段、及び前記構文解析手段の解析結果
    に応じて記号を選択して、前記音声認識手段が変換した
    文字列中の無音部分に対応する部分に挿入する記号挿入
    手段としてコンピュータ装置を機能させるためのプログ
    ラムを記録したことを特徴とするコンピュータ読み取り
    可能な記録媒体。
JP31691499A 1999-11-08 1999-11-08 音声認識システム、方法及び記録媒体 Pending JP2001134289A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31691499A JP2001134289A (ja) 1999-11-08 1999-11-08 音声認識システム、方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31691499A JP2001134289A (ja) 1999-11-08 1999-11-08 音声認識システム、方法及び記録媒体

Publications (1)

Publication Number Publication Date
JP2001134289A true JP2001134289A (ja) 2001-05-18

Family

ID=18082330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31691499A Pending JP2001134289A (ja) 1999-11-08 1999-11-08 音声認識システム、方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP2001134289A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004064354A (ja) * 2002-07-26 2004-02-26 Fujitsu Ltd 通信方法、通信システム、中継装置、コンピュータプログラム、及び記録媒体
JP2007129626A (ja) * 2005-11-07 2007-05-24 Advanced Telecommunication Research Institute International 遠隔地間対話システム
JP2008077360A (ja) * 2006-09-20 2008-04-03 Sharp Corp 文末記号補正装置、音声翻訳システム、文末記号補正方法、制御プログラム、及び該プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2009101837A1 (ja) * 2008-02-13 2009-08-20 Nec Corporation 記号挿入装置および記号挿入方法
CN104142915A (zh) * 2013-05-24 2014-11-12 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
US9779728B2 (en) 2013-05-24 2017-10-03 Tencent Technology (Shenzhen) Company Limited Systems and methods for adding punctuations by detecting silences in a voice using plurality of aggregate weights which obey a linear relationship

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004064354A (ja) * 2002-07-26 2004-02-26 Fujitsu Ltd 通信方法、通信システム、中継装置、コンピュータプログラム、及び記録媒体
JP2007129626A (ja) * 2005-11-07 2007-05-24 Advanced Telecommunication Research Institute International 遠隔地間対話システム
JP4735965B2 (ja) * 2005-11-07 2011-07-27 株式会社国際電気通信基礎技術研究所 遠隔地間対話システム
JP2008077360A (ja) * 2006-09-20 2008-04-03 Sharp Corp 文末記号補正装置、音声翻訳システム、文末記号補正方法、制御プログラム、及び該プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2009101837A1 (ja) * 2008-02-13 2009-08-20 Nec Corporation 記号挿入装置および記号挿入方法
JP5141695B2 (ja) * 2008-02-13 2013-02-13 日本電気株式会社 記号挿入装置および記号挿入方法
US8577679B2 (en) 2008-02-13 2013-11-05 Nec Corporation Symbol insertion apparatus and symbol insertion method
CN104142915A (zh) * 2013-05-24 2014-11-12 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
US9442910B2 (en) 2013-05-24 2016-09-13 Tencent Technology (Shenzhen) Co., Ltd. Method and system for adding punctuation to voice files
US9779728B2 (en) 2013-05-24 2017-10-03 Tencent Technology (Shenzhen) Company Limited Systems and methods for adding punctuations by detecting silences in a voice using plurality of aggregate weights which obey a linear relationship

Similar Documents

Publication Publication Date Title
US6327566B1 (en) Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
US6490563B2 (en) Proofreading with text to speech feedback
US8392191B2 (en) Chinese prosodic words forming method and apparatus
EP1096472B1 (en) Audio playback of a multi-source written document
US20020173955A1 (en) Method of speech recognition by presenting N-best word candidates
KR20210103002A (ko) 감정 정보 기반의 음성 합성 방법 및 장치
JP2001273283A (ja) 言語を識別しかつ音声再生装置を制御する方法及び通信デバイス
US8265936B2 (en) Methods and system for creating and editing an XML-based speech synthesis document
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP2001134289A (ja) 音声認識システム、方法及び記録媒体
EP1475776B1 (en) Dynamic pronunciation support for speech recognition training
JP5088109B2 (ja) 形態素解析装置、形態素解析方法、コンピュータプログラム、音声合成装置及び音声照合装置
US6772116B2 (en) Method of decoding telegraphic speech
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP2003162524A (ja) 言語処理装置
JP3438869B2 (ja) 音声認識システム、方法及び記録媒体
JP4042435B2 (ja) 音声自動質問応答装置
CN112786020B (zh) 一种歌词时间戳生成方法及存储介质
JP3284976B2 (ja) 音声合成装置及びコンピュータ可読記録媒体
WO2021181451A1 (ja) 音声認識装置、制御方法、及びプログラム
JP2006309469A (ja) 検索装置、検索方法、プログラム、及びコンピュータ読み取り可能な記録媒体
JP2005149042A (ja) 音声入力翻訳装置、翻訳プログラム
CN113421543A (zh) 一种数据标注方法、装置、设备及可读存储介质
JP2001166790A (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
CN116956826A (zh) 一种数据处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030212