JPH11231891A - 音声を認識するシステムおよび方法 - Google Patents

音声を認識するシステムおよび方法

Info

Publication number
JPH11231891A
JPH11231891A JP10325079A JP32507998A JPH11231891A JP H11231891 A JPH11231891 A JP H11231891A JP 10325079 A JP10325079 A JP 10325079A JP 32507998 A JP32507998 A JP 32507998A JP H11231891 A JPH11231891 A JP H11231891A
Authority
JP
Japan
Prior art keywords
words
score
speech recognition
text
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10325079A
Other languages
English (en)
Inventor
Jennifer Ceil Lai
ジェニファー・セイル・ライ
John George Vergo
ジョン・ジョージ・ヴァーゴ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH11231891A publication Critical patent/JPH11231891A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 変換されたテキストを、その変換がどの程度
正確であるかを示すシステム信頼性レベルに従って表示
するシステムを提供すること。 【解決手段】音声を認識するコンピュータ・システムお
よび方法は、音声認識部が1つまたは複数の表示された
単語を認識するときに有する信頼性レベルを表示する。
このシステムおよび方法によって、音声認識誤りを迅速
に識別することができる。個々に認識される単語の複数
の信頼性レベルは、可視的に表示される。さらに、この
システムおよび方法によって、システムのユーザは、可
視表示をいつ出すかを決定するしきい値レベルを選択す
ることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識システムに
関する。さらに具体的には、本発明は音声認識システム
のためのユーザ・インタフェースに関し、また、さらに
具体的には、ユーザが音声認識ディクテーション・シス
テムからの変換結果をレビューするときにユーザを援助
する方法および装置に関する。
【0002】
【従来の技術】テキスト処理システム(たとえば、ロー
タス・ワードプロ(Lotus WordProTM)お
よびノベル社のワード・パーフェクト(Word Pe
rfectTM)のような、スペル・チェック機能を有す
るワード・プロセッサ)は、スペルの誤った単語(すな
わち、ワード・プロセッサの内部の辞書によって認識さ
れない単語)を、通常のテキストとは異なったカラーで
表示することができる。異なった形態として、マイクロ
ソフト・ワード(Microsoft Word TM)は
通常のテキストとは異なったカラーでスペルの誤った単
語に下線を付ける。そのような場合、単語を辞書と対照
することによって単語の有効性を確認することは簡単で
ある。単語のスペルは正しいか、正しくないかのどちら
かである。しかし、このような局面における既知のテキ
スト処理システムは、スペルの誤りの可能性だけを処理
する。さらに、テキスト処理システムのスペルチェック
機能は二者択一の真/偽基準のみを使用して単語が正し
いスペルかどうかを決定するので、これらのシステムは
単語を表示するために2つのカラーの1つを選択する。
言い換えれば、灰色の濃淡が存在しない。単語が正しい
スペルであれば、それは1つのカラーで表示され、単語
のスペルが正しくないのではないかとシステムが判断し
た場合には、単語は第2のカラーで表示される。文法チ
ェック・システムも同様に動作する。すなわち、そのシ
ステムは、正しい文法が使用されたか使用されなかった
かの判断に基づいて、2つのカラーの1つを選択してテ
キストを表示する。
【0003】これに対して、本発明の方法および装置は
音声認識誤りを処理する。さらに具体的には、本発明の
方法および装置は、音声認識システムがユーザによって
話された単語を認識する場合の信頼性のレベルに基づ
き、音声認識誤りを処理する。本発明の方法および装置
によれば、音声認識エンジンがどれくらいの確率で単語
を正しく認識したかどうかの計算された確率に相関した
表示が発生される。単語が正しく認識される場合でも認
識されない場合でも、表示された単語は常に正しいスペ
ルである。さらに、本発明のシステムは、単語の表示方
法を決定する場合に、マルチレベルの信頼性表示を提供
することによってマルチレベルの基準をサポートする。
【0004】他の分野では、既知のデータ視覚化システ
ムは、量的情報を伝えるためにカラーおよび他の視覚属
性を使用する。たとえば、脳波測定(EEG)システム
は脳のカラー輪郭マップを表示し、その場合、カラーは
電気的活動の振幅を表示する。さらに、気象システム
は、降雨量または温度が異なったカラーによって表わさ
れるマップを表示する。輪郭マップはカラーの対応する
レンジで高度と深さを表示する。しかし、そのようなデ
ータ視覚化システムがテキストに応用されることはなか
った。具体的には、そのようなデータ視覚化システムが
音声認識/ディクテーション・システムによって作成さ
れたテキストに応用されることはなかった。
【0005】さらに他の分野では、いくつかの音声認識
ディクテーション・システムは、発声された命令を認識
する能力を有する。たとえば、テキストを口述している
人は、「テキストのこの部分に下線」とか「この文書を
印刷」とかの命令を発声する。そのような場合、入って
きた音声信号とデコードされたテキストの間の一致が信
頼性の低いスコアである場合、発声された命令は認識さ
れなかったものとしてフラグを付けられる。そのような
場合、システムはユーザ・インタフェース上に或る標識
(たとえば、疑問符または「何でしょうか?」のような
コメント)を表示する。しかし明らかに、そのようなシ
ステムは、発声された命令が認識されたかどうかを単に
表示するだけで、その性質としてはマルチレベルではな
く二者択一式である。前記の例では、システムは、それ
がユーザの命令を実行できないことを示す。したがっ
て、ユーザは何らかのアクションを取る必要がある。こ
のようなシステムでは、どの程度命令を満足させること
ができるかの変動的信頼性レベルを反映するような方式
でテキスト表示問題を処理することはできない。
【0006】さらに他の分野では、R.Hartson および
D.Hix編 Advances in Human-Computer Interaction, 4:
216-218, Ablex, 1993, に掲載されている J.R.Rhyne
およびG.C.Wolf の "Recognition Based User Interfac
es," と題する章は、「認識候補間の類似性が接近して
いて置換誤りの可能性が高いとき、インタフェースは直
ちに結果を強調表示することができる」と述べている。
しかし、これは二者択一基準の他の例であるにすぎず、
本発明のマルチレベル信頼性表示とは対比されるべきも
のである。さらに、この文献は本発明と異なり単に置換
誤りを処理するだけであり、ユーザ制御が存在しない。
本発明は置換誤りのみでなく削除誤りおよび挿入誤りを
問題とし、さらにユーザ制御を提供する。
【0007】
【発明が解決しようとする課題】これまで、ユーザが音
声認識技術を使用してテキストを口述するとき、認識誤
りを検出するのは困難であった。典型的には、ユーザは
記録された文書を注意深く一語一語読み取り、挿入、削
除、および置換を探す必要があった。たとえば、「ther
e are no signs of cancer」という文章は、削除誤りに
よって「there are signs of cancer」となる可能性が
あった。この種の誤りは、文書を急いで校正していると
き容易に犯すものである。
【0008】したがって、変換がどの程度正確であるか
を示すシステムの信頼性レベルに従って、変換されたテ
キストを表示するシステムの提供が望まれる。さらに、
そのようなシステムがその信頼性レベルを二者択一式よ
りも多い標識で表示できることが望ましい。
【0009】従来技術の欠点は、次のような目的を有す
る本発明によって克服される。
【0010】本発明の目的は、改善された音声認識シス
テム・インタフェースを提供することである。
【0011】本発明の他の目的は、認識されたテキスト
に対する音声エンジンの信頼性レベルをユーザに表示す
る音声認識インタフェースを提供することである。
【0012】本発明の他の目的は、音声エンジンによっ
て認識された表示テキストの信頼性レベルを音声認識イ
ンタフェースで設定できるようにするエンド・ユーザ制
御を提供することである。
【0013】
【課題を解決するための手段】本発明は、音声認識部が
1つまたは複数の表示された単語に対して有する信頼性
レベルを表示する音声認識コンピュータ・システムおよ
びその方法に関する。信頼性レベルは、ユーザ・インタ
フェース上に表示される1つまたは複数の単語に関連し
た標識(たとえば、カラー)を使用して表わされる。シ
ステムは、音声信号を音声認識部へ入力する音声入力装
置(たとえばマイクロホン)を有する。音声認識部は音
声入力装置からの音声信号をテキスト(たとえば1つま
たは複数の単語)へ変換する。音声認識部内の信頼性レ
ベル・プロセスは、認識される各単語のためにスコア
(信頼性レベル)を発生する。次に、信頼性レベル標識
プロセスは、ユーザ・インタフェース上で表示される1
つまたは複数の単語の各々に関連して、1つまたは複数
の標識を発生する。この標識は、スコアが入る1つまた
は複数のサブレンジの1つに関連している。単語は、ユ
ーザ・インタフェース上で、信頼性スコアを反映するテ
キスト属性(たとえばカラー)を有するテキストとして
表示される。
【0014】
【発明の実施の形態】図1は単語を信頼性レベルに相関
した属性と共に表示するシステムおよび方法を示す。話
し手はマイクロホン(170)に向かって声を出す。マ
イクロホンは音声信号を音声エンジン・プロセス(16
0)へ転送する。音声エンジン・プロセスはソフトウェ
アであるか、ソフトウェアとハードウェアの組み合わせ
であってよい。これらは入力音声信号をディジタル化し
て認識部(190)で認識機能を実行する。認識部(1
90)は音声信号をテキスト(すなわち、1つまたは複
数の単語)へ変換する。この認識および変換は、当技術
分野で周知の多くの異なった方法で実行されてよい。各
単語は信頼性レベル・スコア割り当て部(200)によ
って信頼性レベル・スコアを割り当てられる。この信頼
性レベル・スコアは、認識部(190)が音声信号をテ
キストへ変換したときの正確度を決定するアルゴリズム
を使用して割り当てられる。各単語および割り当てられ
た信頼性レベル・スコアは単語/スコアの対(210)
を形成し、それらの各々はグラフィカル・ユーザ・イン
タフェース(GUI)アプリケーション(150)へ送
られる。GUIアプリケーション(150)はユーザ制
御部(140)から情報を受け取る。それによって、シ
ステムのユーザはスコアしきい値を選択して、スコアが
それよりも大きい(または小さい)ときにデフォルトの
属性を使用して単語を表示させることができる。さら
に、ユーザは、ユーザ制御部(140)を経由して情報
を与え、単語を表示するのにどのカラー・マップおよび
/または属性マップを使用するかを制御することができ
る。しきい値およびマップの使用については、後で詳細
に説明する。
【0015】単語/スコアの対を受け取ると、GUIア
プリケーション(150)は信頼性レベル標識プロセス
(CLIP)(180)およびユーザ制御部(140)
からの情報(もしあれば)を使用して、各々の単語(1
10、120、130)へカラーおよび/または属性を
割り当てる。CLIPは、信頼性レベル・スコア割り当
て部(200)によって割り当てられたスコアを見て、
どのカラーおよび/または属性をそのスコアに関連させ
るかを決定するマッピング・アルゴリズムである。した
がって、単語を表示するために使用されたカラーおよび
/または属性は、認識部が音声信号をテキストへ変換し
たときの正確度を反映する。
【0016】選択されるカラーは或るレンジの異なった
カラーのマップから選択されても、単一のカラーの異な
った濃淡のマップから選択されてもよい。さらに、選択
される属性は、フォント・タイプ、ポイント・サイズ、
ボールド、イタリック、下線、二重下線、大文字化、フ
ラッシング、ブリンキングなどの特徴を含むか、これら
特徴の任意の組み合わせを含むものであってよい。一
度、単語およびそれに関連したカラーおよび/または属
性が各単語について決定されると、その対は出力装置
(105)上で表示される。そのとき、各単語(11
0、120、130)は関連したカラーおよび/または
属性で表示される。
【0017】図2は、図1に関連して説明した実施例で
実行されるステップをフローチャート形式で示す。図2
において、話し手がマイクロホンへ話すことによって生
成された音声信号は、音声信号をテキストまたは単語へ
デコードする認識部(190)およびスコアを単語へ割
り当てる信頼性レベル・スコア割り当て部(200)を
含む音声エンジン・プロセス(160)へ送られる。こ
のスコアは、音声認識システムが処理された音声信号を
変換したときの信頼性レベルを反映する。次に、各単語
は、その関連したスコアと共に、音声エンジン・プロセ
ス(160)内の信頼性レベル・スコア割り当て部(2
00)からGUIアプリケーション(150)へ送られ
る。GUIアプリケーション(150)は、しきい値お
よびカラーおよび/または属性のマッピングを制御する
ためにユーザ制御部(140)から情報を受け取って、
その情報をGUIアプリケーション(150)内のCL
IP(180)で使用することができる。次に、CLI
P(180)は各単語に与えられたスコアおよびユーザ
からの情報(もしあれば)に基づいて各単語にカラーお
よび/または属性を割り当てる。このようにして、GU
Iアプリケーション(150)は、その出力として、各
単語および関連したカラーおよび/または属性を有す
る。次に、この情報は、単語および関連したカラーおよ
び/または属性を表示するために使用される。この関連
したカラーおよび/または属性は、各単語に関連した信
頼性レベルを示す。
【0018】図3はCLIP(図1および図2の18
0)の詳細を示すフローチャートである。単語/スコア
の対(210)はCLIP(180)によって受け取ら
れ、CLIP(180)はデフォルトのカラーおよびフ
ォント属性を単語へ割り当てる(181)。単語および
そのスコアがレビューされる(182)。もし単語のス
コアがしきい値以上であれば、その単語はデフォルトの
カラーおよび属性で表示される(220)。もしそのス
コアが、ユーザまたはシステムによって定義されるしき
い値(141)よりも下であれば、単語および関連した
スコアはカラー・マッピングをチェックするプロセス
(183)へ渡される。カラー・マップ(240)が使
用されるとき、適切なカラー(単語のスコアによって決
定される)が単語へマップされる(185)。カラーが
マップされたか否かを問わず、プロセスは、単語の属性
マッピングがスコアに基づいて変更される必要があるか
どうかをチェックする(184)。変更される必要があ
れば、属性マッピング・プロセス(184)は属性マッ
プ230を使用してスコアに基づき正しいフォント属性
をマップする(186)。次に、適切なカラーおよび属
性を有する単語が表示される(220)。
【0019】本発明の種々の変更例が可能である。たと
えば、図3のフローチャートにおいて、単語/スコアの
対がしきい値よりも上(下ではなく)であるとき、カラ
ーおよび/または属性のマッピングを実行することがで
きる。さらに、カラー・マッピングまたは属性マッピン
グは順次にではなく単独で実行することができる。すな
わち、カラー・マッピングまたは属性マッピングを単独
で使用することができる。
【0020】本発明は特定の実施形態を参照して説明さ
れたが、この技術分野に知識を有する者にとっては、多
くの変更形態が可能であることが容易に分かる。したが
って、そのような変更形態のすべては、請求項で定義さ
れるような本発明の範囲に含まれるものである。
【0021】まとめとして、本発明の構成に関して以下
の事項を開示する。 (1)音声を1つまたは複数の単語から成るテキストに
変換する音声認識部と、前記1つまたは複数の単語を表
示するユーザ・インタフェースとを備え、前記音声認識
部は前記1つまたは複数の単語のために少なくとも3つ
の可能なスコアの1つを割り当てる信頼性レベル・スコ
ア割り当て部を含み、前記スコアは前記1つまたは複数
の単語が正しく認識されたことの信頼性の尺度であり、
前記1つまたは複数の単語の各々は前記スコアに基づく
表示特性を有する、音声認識システム。 (2)前記表示特性がデフォルトの表示特性および2つ
以上の他の表示特性を含む、上記(1)に記載の音声認
識システム。 (3)前記デフォルトの表示特性が通常のテキストであ
る、上記(2)に記載の音声認識システム。 (4)前記スコアがしきい値よりも下であるとき、前記
1つまたは複数の単語が前記2つ以上の他の表示特性の
1つで表示され、それによって誤りの可能性を示す、上
記(2)に記載の音声認識システム。 (5)音声を1つまたは複数の単語から成るテキストに
変換する音声認識部と、ユーザ・インタフェースと、ユ
ーザ制御部とを備え、前記音声認識部は前記1つまたは
複数の単語のために少なくとも3つの可能なスコアの1
つを割り当てる信頼性レベル・スコア割り当て部を含
み、前記ユーザ・インタフェースは前記1つまたは複数
の単語を前記スコアに基づいて表示し、前記1つまたは
複数の単語は、前記スコアが複数のサブレンジのいずれ
に入るかに応じて、1つまたは複数の標識に従って表示
され、前記ユーザ制御部は、ユーザによる前記サブレン
ジの定義を可能にする、音声認識システム。 (6)前記標識の各々が異なったカラーである、上記
(5)に記載の音声認識システム。 (7)前記標識の各々が少なくとも1つの異なったフォ
ント属性である、上記(5)に記載の音声認識システ
ム。 (8)前記標識の各々が単一カラーの異なった濃淡また
は灰色の異なった濃淡の1つである、上記(5)に記載
の音声認識システム。 (9)音声を1つまたは複数の単語から成るテキストに
変換する音声認識部と、ユーザ・インタフェースとを備
え、前記音声認識部は前記1つまたは複数の単語のため
に少なくとも3つの可能なスコアの1つを割り当てる信
頼性レベル・スコア割り当て部を含み、前記ユーザ・イ
ンタフェースは前記1つまたは複数の単語を前記スコア
に従って表示し、表示される1つまたは複数の単語は前
記スコアに基づいて連続したレンジのカラーへマップさ
れ、それによって前記スコアの異なったもののために異
なったカラー表示が提供される、音声認識システム。 (10)音声を認識する方法であって、入力音声を1つ
または複数の単語から成るテキストに変換するステップ
と、前記1つまたは複数の単語の各々のために少なくと
も3つの可能な信頼性レベル・スコアの1つを割り当て
るステップと、割り当てられたスコアに基づいて前記1
つまたは複数の単語を表示するステップとを含み、前記
信頼性レベル・スコアは前記1つまたは複数の単語が正
しく認識されたことの信頼性の尺度であり、前記1つま
たは複数の単語の各々は前記信頼性レベル・スコアに基
づく表示特性を有する、音声認識方法。 (11)前記表示特性がデフォルトの表示特性および2
つ以上の他の表示特性を含む、上記(10)に記載の音
声認識方法。 (12)前記デフォルトの表示特性が通常のテキストで
ある、上記(11)に記載の音声認識方法。 (13)前記1つまたは複数の単語の前記スコアがしき
い値よりも下であるとき、前記1つまたは複数の単語が
前記2つ以上の他の表示特性の1つで表示される、上記
(11)に記載の音声認識方法。 (14)音声を認識する方法であって、入力音声を1つ
または複数の単語から成るテキストへ変換するステップ
と、前記1つまたは複数の単語の各々のために少なくと
も3つの信頼性レベル・スコアの1つを割り当てるステ
ップと、割り当てられたスコアに従って前記1つまたは
複数の単語を表示するステップとを含み、前記信頼性レ
ベル・スコアの各々が複数のサブレンジの中のどれに入
るかに応じて、前記1つまたは複数の単語が1つまたは
複数の標識に従って表示され、前記サブレンジはユーザ
によって定義される、音声認識方法。 (15)前記複数の標識の各々のために異なったカラー
を提供するステップを含む、上記(14)に記載の音声
認識方法。 (16)前記複数の標識の各々のために少なくとも1つ
の異なったフォント属性を提供するステップを含む、上
記(14)に記載の音声認識方法。 (17)前記1つまたは複数の標識の各々のために単一
カラーの異なった濃淡または灰色の異なった濃淡の1つ
を提供するステップを含む、上記(14)に記載の音声
認識方法。 (18)音声を認識する方法であって、入力音声を1つ
または複数の単語から成るテキストに変換するステップ
と、前記1つまたは複数の単語の各々のために少なくと
も3つの可能な信頼性レベル・スコアの1つを割り当て
るステップと、前記信頼性レベル・スコアに従って前記
1つまたは複数の単語を表示するステップとを含み、表
示される前記1つまたは複数の単語が前記信頼性レベル
・スコアに基づいて連続したレンジのカラーへマップさ
れ、それによって前記信頼性レベル・スコアの異なった
もののために異なったカラー表示が提供される、音声認
識方法。 (19)テキスト中の単語に関連した少なくとも3つの
可能なスコアの1つを割り当てるプロセスと、前記スコ
アに基づく視覚属性に従って前記テキストを表示するユ
ーザ・インタフェースとを備える、システム。 (20)前記視覚属性の各々が異なったカラーまたは単
一カラーの異なった濃淡の1つである、上記(19)に
記載のシステム。 (21)前記視覚属性の各々が、少なくとも1つの異な
ったフォント属性である、上記(19)に記載のシステ
ム。 (22)テキスト中の単語に関連した少なくとも3つの
可能なスコアの1つを割り当てるステップと、前記スコ
アに基づく視覚属性に従って前記テキストを表示するス
テップとを含む、方法。 (23)前記視覚属性の各々が異なったカラーまたは単
一カラーの異なった濃淡の1つである、上記(22)に
記載の方法。 (24)前記視覚属性の各々が、少なくとも1つの異な
ったフォント属性である、上記(22)に記載の方法。
【図面の簡単な説明】
【図1】本発明の実施例のブロック図である。
【図2】図1に示されたシステムで実行されるステップ
を示すフローチャートである。
【図3】信頼性レベル標識プロセスの詳細を示すフロー
チャートである。
【符号の説明】 105 出力装置 110 単語 120 単語 130 単語 140 ユーザ制御部 150 GUIアプリケーション 160 音声エンジン・プロセス 170 マイクロホン 180 信頼性レベル標識プロセス 190 認識部 200 信頼性レベル・スコア割り当て部 210 単語/スコアの対
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジョン・ジョージ・ヴァーゴ アメリカ合衆国10598、 ニューヨーク州 ヨークタウン・ハイツ ウェリントン・コ ート 51

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】音声を1つまたは複数の単語から成るテキ
    ストに変換する音声認識部と、 前記1つまたは複数の単語を表示するユーザ・インタフ
    ェースとを備え、 前記音声認識部は前記1つまたは複数の単語のために少
    なくとも3つの可能なスコアの1つを割り当てる信頼性
    レベル・スコア割り当て部を含み、前記スコアは前記1
    つまたは複数の単語が正しく認識されたことの信頼性の
    尺度であり、 前記1つまたは複数の単語の各々は前記スコアに基づく
    表示特性を有する、 音声認識システム。
  2. 【請求項2】前記表示特性がデフォルトの表示特性およ
    び2つ以上の他の表示特性を含む、請求項1に記載の音
    声認識システム。
  3. 【請求項3】前記デフォルトの表示特性が通常のテキス
    トである、請求項2に記載の音声認識システム。
  4. 【請求項4】前記スコアがしきい値よりも下であると
    き、前記1つまたは複数の単語が前記2つ以上の他の表
    示特性の1つで表示され、それによって誤りの可能性を
    示す、請求項2に記載の音声認識システム。
  5. 【請求項5】音声を1つまたは複数の単語から成るテキ
    ストに変換する音声認識部と、ユーザ・インタフェース
    と、ユーザ制御部とを備え、 前記音声認識部は前記1つまたは複数の単語のために少
    なくとも3つの可能なスコアの1つを割り当てる信頼性
    レベル・スコア割り当て部を含み、 前記ユーザ・インタフェースは前記1つまたは複数の単
    語を前記スコアに基づいて表示し、前記1つまたは複数
    の単語は、前記スコアが複数のサブレンジのいずれに入
    るかに応じて、1つまたは複数の標識に従って表示さ
    れ、 前記ユーザ制御部は、ユーザによる前記サブレンジの定
    義を可能にする、 音声認識システム。
  6. 【請求項6】前記標識の各々が異なったカラーである、
    請求項5に記載の音声認識システム。
  7. 【請求項7】前記標識の各々が少なくとも1つの異なっ
    たフォント属性である、請求項5に記載の音声認識シス
    テム。
  8. 【請求項8】前記標識の各々が単一カラーの異なった濃
    淡または灰色の異なった濃淡の1つである、請求項5に
    記載の音声認識システム。
  9. 【請求項9】音声を1つまたは複数の単語から成るテキ
    ストに変換する音声認識部と、ユーザ・インタフェース
    とを備え、 前記音声認識部は前記1つまたは複数の単語のために少
    なくとも3つの可能なスコアの1つを割り当てる信頼性
    レベル・スコア割り当て部を含み、 前記ユーザ・インタフェースは前記1つまたは複数の単
    語を前記スコアに従って表示し、表示される1つまたは
    複数の単語は前記スコアに基づいて連続したレンジのカ
    ラーへマップされ、それによって前記スコアの異なった
    もののために異なったカラー表示が提供される、 音声認識システム。
  10. 【請求項10】音声を認識する方法であって、 入力音声を1つまたは複数の単語から成るテキストに変
    換するステップと、 前記1つまたは複数の単語の各々のために少なくとも3
    つの可能な信頼性レベル・スコアの1つを割り当てるス
    テップと、 割り当てられたスコアに基づいて前記1つまたは複数の
    単語を表示するステップとを含み、 前記信頼性レベル・スコアは前記1つまたは複数の単語
    が正しく認識されたことの信頼性の尺度であり、前記1
    つまたは複数の単語の各々は前記信頼性レベル・スコア
    に基づく表示特性を有する、 音声認識方法。
  11. 【請求項11】前記表示特性がデフォルトの表示特性お
    よび2つ以上の他の表示特性を含む、請求項10に記載
    の音声認識方法。
  12. 【請求項12】前記デフォルトの表示特性が通常のテキ
    ストである、請求項11に記載の音声認識方法。
  13. 【請求項13】前記1つまたは複数の単語の前記スコア
    がしきい値よりも下であるとき、前記1つまたは複数の
    単語が前記2つ以上の他の表示特性の1つで表示され
    る、請求項11に記載の音声認識方法。
  14. 【請求項14】音声を認識する方法であって、 入力音声を1つまたは複数の単語から成るテキストへ変
    換するステップと、 前記1つまたは複数の単語の各々のために少なくとも3
    つの信頼性レベル・スコアの1つを割り当てるステップ
    と、 割り当てられたスコアに従って前記1つまたは複数の単
    語を表示するステップとを含み、 前記信頼性レベル・スコアの各々が複数のサブレンジの
    中のどれに入るかに応じて、前記1つまたは複数の単語
    が1つまたは複数の標識に従って表示され、前記サブレ
    ンジはユーザによって定義される、音声認識方法。
  15. 【請求項15】前記複数の標識の各々のために異なった
    カラーを提供するステップを含む、 請求項14に記載の音声認識方法。
  16. 【請求項16】前記複数の標識の各々のために少なくと
    も1つの異なったフォント属性を提供するステップを含
    む、 請求項14に記載の音声認識方法。
  17. 【請求項17】前記1つまたは複数の標識の各々のため
    に単一カラーの異なった濃淡または灰色の異なった濃淡
    の1つを提供するステップを含む、 請求項14に記載の音声認識方法。
  18. 【請求項18】音声を認識する方法であって、 入力音声を1つまたは複数の単語から成るテキストに変
    換するステップと、 前記1つまたは複数の単語の各々のために少なくとも3
    つの可能な信頼性レベル・スコアの1つを割り当てるス
    テップと、 前記信頼性レベル・スコアに従って前記1つまたは複数
    の単語を表示するステップとを含み、 表示される前記1つまたは複数の単語が前記信頼性レベ
    ル・スコアに基づいて連続したレンジのカラーへマップ
    され、それによって前記信頼性レベル・スコアの異なっ
    たもののために異なったカラー表示が提供される、 音声認識方法。
  19. 【請求項19】テキスト中の単語に関連した少なくとも
    3つの可能なスコアの1つを割り当てるプロセスと、 前記スコアに基づく視覚属性に従って前記テキストを表
    示するユーザ・インタフェースとを備える、システム。
  20. 【請求項20】前記視覚属性の各々が異なったカラーま
    たは単一カラーの異なった濃淡の1つである、請求項1
    9に記載のシステム。
  21. 【請求項21】前記視覚属性の各々が、少なくとも1つ
    の異なったフォント属性である、請求項19に記載のシ
    ステム。
  22. 【請求項22】テキスト中の単語に関連した少なくとも
    3つの可能なスコアの1つを割り当てるステップと、 前記スコアに基づく視覚属性に従って前記テキストを表
    示するステップとを含む、 方法。
  23. 【請求項23】前記視覚属性の各々が異なったカラーま
    たは単一カラーの異なった濃淡の1つである、請求項2
    2に記載の方法。
  24. 【請求項24】前記視覚属性の各々が、少なくとも1つ
    の異なったフォント属性である、請求項22に記載の方
    法。
JP10325079A 1997-12-16 1998-11-16 音声を認識するシステムおよび方法 Pending JPH11231891A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/991,264 US6006183A (en) 1997-12-16 1997-12-16 Speech recognition confidence level display
US08/991264 1997-12-16

Publications (1)

Publication Number Publication Date
JPH11231891A true JPH11231891A (ja) 1999-08-27

Family

ID=25537037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10325079A Pending JPH11231891A (ja) 1997-12-16 1998-11-16 音声を認識するシステムおよび方法

Country Status (4)

Country Link
US (1) US6006183A (ja)
EP (1) EP0924687A3 (ja)
JP (1) JPH11231891A (ja)
KR (1) KR100297514B1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034293A (ja) * 1999-06-30 2001-02-09 Internatl Business Mach Corp <Ibm> 音声を転写するための方法及び装置
JP2006522363A (ja) * 2003-03-31 2006-09-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信頼水準の指示により音声認識の結果を訂正するためのシステム
WO2007043566A1 (ja) * 2005-10-13 2007-04-19 Nec Corporation 音声認識システムと音声認識方法およびプログラム
US8095371B2 (en) 2006-02-20 2012-01-10 Nuance Communications, Inc. Computer-implemented voice response method using a dialog state diagram to facilitate operator intervention
JP2014202848A (ja) * 2013-04-03 2014-10-27 株式会社東芝 テキスト生成装置、方法、及びプログラム
US9772739B2 (en) 2000-05-03 2017-09-26 Nokia Technologies Oy Method for controlling a system, especially an electrical and/or electronic system comprising at least one application device
JP2020201363A (ja) * 2019-06-09 2020-12-17 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム

Families Citing this family (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7835989B1 (en) 1992-12-09 2010-11-16 Discovery Communications, Inc. Electronic book alternative delivery systems
US8073695B1 (en) * 1992-12-09 2011-12-06 Adrea, LLC Electronic book with voice emulation features
EP0856993B1 (en) 1992-12-09 2002-07-31 Discovery Communications, Inc. Set top terminal for cable television delivery systems
US7168084B1 (en) 1992-12-09 2007-01-23 Sedna Patent Services, Llc Method and apparatus for targeting virtual objects
US9286294B2 (en) 1992-12-09 2016-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content suggestion engine
US7509270B1 (en) 1992-12-09 2009-03-24 Discovery Communications, Inc. Electronic Book having electronic commerce features
US7849393B1 (en) 1992-12-09 2010-12-07 Discovery Communications, Inc. Electronic book connection to world watch live
US7861166B1 (en) 1993-12-02 2010-12-28 Discovery Patent Holding, Llc Resizing document pages to fit available hardware screens
US7865567B1 (en) 1993-12-02 2011-01-04 Discovery Patent Holdings, Llc Virtual on-demand electronic book
US9053640B1 (en) 1993-12-02 2015-06-09 Adrea, LLC Interactive electronic book
US8095949B1 (en) 1993-12-02 2012-01-10 Adrea, LLC Electronic book with restricted access features
US6195637B1 (en) * 1998-03-25 2001-02-27 International Business Machines Corp. Marking and deferring correction of misrecognition errors
DE19821422A1 (de) * 1998-05-13 1999-11-18 Philips Patentverwaltung Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern
US6138099A (en) * 1998-10-19 2000-10-24 International Business Machines Corp. Automatically updating language models
US6704709B1 (en) * 1999-07-28 2004-03-09 Custom Speech Usa, Inc. System and method for improving the accuracy of a speech recognition program
US6865258B1 (en) * 1999-08-13 2005-03-08 Intervoice Limited Partnership Method and system for enhanced transcription
US6834308B1 (en) 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
WO2002009093A1 (en) * 2000-07-20 2002-01-31 Koninklijke Philips Electronics N.V. Feedback of recognized command confidence level
US6353767B1 (en) * 2000-08-25 2002-03-05 General Electric Company Method and system of confidence scoring
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
US7562012B1 (en) 2000-11-03 2009-07-14 Audible Magic Corporation Method and apparatus for creating a unique audio signature
US6785650B2 (en) 2001-03-16 2004-08-31 International Business Machines Corporation Hierarchical transcription and display of input speech
US7363278B2 (en) * 2001-04-05 2008-04-22 Audible Magic Corporation Copyright detection and protection system and method
US20020184022A1 (en) * 2001-06-05 2002-12-05 Davenport Gary F. Proofreading assistance techniques for a voice recognition system
US6792408B2 (en) * 2001-06-12 2004-09-14 Dell Products L.P. Interactive command recognition enhancement system and method
US7529659B2 (en) * 2005-09-28 2009-05-05 Audible Magic Corporation Method and apparatus for identifying an unknown work
US8972481B2 (en) 2001-07-20 2015-03-03 Audible Magic, Inc. Playlist generation method and apparatus
US7877438B2 (en) * 2001-07-20 2011-01-25 Audible Magic Corporation Method and apparatus for identifying new media content
US7793326B2 (en) 2001-08-03 2010-09-07 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator
US7908628B2 (en) 2001-08-03 2011-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content coding and formatting
DE10138408A1 (de) * 2001-08-04 2003-02-20 Philips Corp Intellectual Pty Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
US20030046071A1 (en) * 2001-09-06 2003-03-06 International Business Machines Corporation Voice recognition apparatus and method
US20030061022A1 (en) * 2001-09-21 2003-03-27 Reinders James R. Display of translations in an interleaved fashion with variable spacing
US7006968B2 (en) * 2001-10-11 2006-02-28 Hewlett-Packard Development Company L.P. Document creation through embedded speech recognition
JP4145796B2 (ja) * 2001-10-31 2008-09-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テキストファイルのディクテーションを筆記するための及びテキストを修正するための方法及びシステム
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US7016842B2 (en) * 2002-03-26 2006-03-21 Sbc Technology Resources, Inc. Method and system for evaluating automatic speech recognition telephone services
US7548847B2 (en) * 2002-05-10 2009-06-16 Microsoft Corporation System for automatically annotating training data for a natural language understanding system
US7774194B2 (en) * 2002-08-14 2010-08-10 Raanan Liebermann Method and apparatus for seamless transition of voice and/or text into sign language
WO2004053836A1 (en) * 2002-12-10 2004-06-24 Kirusa, Inc. Techniques for disambiguating speech input using multimodal interfaces
US6834265B2 (en) 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
US6993482B2 (en) * 2002-12-18 2006-01-31 Motorola, Inc. Method and apparatus for displaying speech recognition results
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7197331B2 (en) * 2002-12-30 2007-03-27 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US8332326B2 (en) 2003-02-01 2012-12-11 Audible Magic Corporation Method and apparatus to identify a work received by a processing system
US7324940B1 (en) 2003-02-28 2008-01-29 Lumen Vox, Llc Speech recognition concept confidence measurement
US20050027523A1 (en) * 2003-07-31 2005-02-03 Prakairut Tarlton Spoken language system
KR100577387B1 (ko) * 2003-08-06 2006-05-10 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
US7383172B1 (en) 2003-08-15 2008-06-03 Patrick William Jamieson Process and system for semantically recognizing, correcting, and suggesting domain specific speech
JP4012143B2 (ja) * 2003-12-16 2007-11-21 キヤノン株式会社 情報処理装置およびデータ入力方法
US8130746B2 (en) 2004-07-28 2012-03-06 Audible Magic Corporation System for distributing decoy content in a peer to peer network
GB2432704B (en) * 2004-07-30 2009-12-09 Dictaphone Corp A system and method for report level confidence
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US9520068B2 (en) * 2004-09-10 2016-12-13 Jtt Holdings, Inc. Sentence level analysis in a reading tutor
US20060106618A1 (en) * 2004-10-29 2006-05-18 Microsoft Corporation System and method for converting text to speech
KR100612882B1 (ko) * 2004-12-29 2006-08-14 삼성전자주식회사 시계열 신호의 패턴 인식 가능성 판단 방법 및 장치
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7788087B2 (en) 2005-03-01 2010-08-31 Microsoft Corporation System for processing sentiment-bearing text
US7788086B2 (en) * 2005-03-01 2010-08-31 Microsoft Corporation Method and apparatus for processing sentiment-bearing text
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US7693716B1 (en) 2005-09-27 2010-04-06 At&T Intellectual Property Ii, L.P. System and method of developing a TTS voice
US7711562B1 (en) 2005-09-27 2010-05-04 At&T Intellectual Property Ii, L.P. System and method for testing a TTS voice
US7630898B1 (en) 2005-09-27 2009-12-08 At&T Intellectual Property Ii, L.P. System and method for preparing a pronunciation dictionary for a text-to-speech voice
US7742921B1 (en) * 2005-09-27 2010-06-22 At&T Intellectual Property Ii, L.P. System and method for correcting errors when generating a TTS voice
US7742919B1 (en) 2005-09-27 2010-06-22 At&T Intellectual Property Ii, L.P. System and method for repairing a TTS voice database
US20070078806A1 (en) * 2005-10-05 2007-04-05 Hinickle Judith A Method and apparatus for evaluating the accuracy of transcribed documents and other documents
US7822596B2 (en) * 2005-12-05 2010-10-26 Microsoft Corporation Flexible display translation
US20070129945A1 (en) * 2005-12-06 2007-06-07 Ma Changxue C Voice quality control for high quality speech reconstruction
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
US20070208567A1 (en) * 2006-03-01 2007-09-06 At&T Corp. Error Correction In Automatic Speech Recognition Transcripts
US7680853B2 (en) * 2006-04-10 2010-03-16 Microsoft Corporation Clickable snippets in audio/video search results
US8121838B2 (en) 2006-04-11 2012-02-21 Nuance Communications, Inc. Method and system for automatic transcription prioritization
EP2030197A4 (en) * 2006-06-22 2012-04-04 Multimodal Technologies Llc ASSISTANCE FOR AUTOMATIC DECISION
US7899674B1 (en) * 2006-08-11 2011-03-01 The United States Of America As Represented By The Secretary Of The Navy GUI for the semantic normalization of natural language
US8204746B2 (en) * 2007-03-29 2012-06-19 Intellisist, Inc. System and method for providing an automated call center inline architecture
US8006314B2 (en) 2007-07-27 2011-08-23 Audible Magic Corporation System for identifying content of digital data
US8224656B2 (en) * 2008-03-14 2012-07-17 Microsoft Corporation Speech recognition disambiguation on mobile devices
JP2010008601A (ja) * 2008-06-25 2010-01-14 Fujitsu Ltd 案内情報表示装置、案内情報表示方法及びプログラム
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
US8199651B1 (en) 2009-03-16 2012-06-12 Audible Magic Corporation Method and system for modifying communication flows at a port level
US8463673B2 (en) 2010-09-23 2013-06-11 Mmodal Ip Llc User feedback in semi-automatic question answering systems
US9094291B1 (en) * 2010-12-14 2015-07-28 Symantec Corporation Partial risk score calculation for a data object
US8924394B2 (en) 2011-02-18 2014-12-30 Mmodal Ip Llc Computer-assisted abstraction for reporting of quality measures
KR101233561B1 (ko) * 2011-05-12 2013-02-14 엔에이치엔(주) 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
EP2721606A4 (en) 2011-06-19 2015-04-01 Mmodal Ip Llc DOCUMENT EXTENSION IN A DICTIONARY BASED DOCUMENT GENERATION WORKFLOW
US9361883B2 (en) * 2012-05-01 2016-06-07 Microsoft Technology Licensing, Llc Dictation with incremental recognition of speech
US10431235B2 (en) 2012-05-31 2019-10-01 Elwha Llc Methods and systems for speech adaptation data
US9495966B2 (en) 2012-05-31 2016-11-15 Elwha Llc Speech recognition adaptation systems based on adaptation data
US20130325453A1 (en) * 2012-05-31 2013-12-05 Elwha LLC, a limited liability company of the State of Delaware Methods and systems for speech adaptation data
US9620128B2 (en) 2012-05-31 2017-04-11 Elwha Llc Speech recognition adaptation systems based on adaptation data
US10395672B2 (en) * 2012-05-31 2019-08-27 Elwha Llc Methods and systems for managing adaptation data
US9899026B2 (en) 2012-05-31 2018-02-20 Elwha Llc Speech recognition adaptation systems based on adaptation data
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
WO2014028529A2 (en) 2012-08-13 2014-02-20 Mmodal Ip Llc Maintaining a discrete data representation that corresponds to information contained in free-form text
US9081778B2 (en) 2012-09-25 2015-07-14 Audible Magic Corporation Using digital fingerprints to associate data with a work
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
CN103700368B (zh) * 2014-01-13 2017-01-18 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
US20150206156A1 (en) * 2014-01-20 2015-07-23 Jason Tryfon Survey management systems and methods with natural language support
US10540979B2 (en) * 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
CN104021786B (zh) * 2014-05-15 2017-05-24 北京中科汇联信息技术有限公司 一种语音识别的方法和装置
WO2015178715A1 (en) * 2014-05-23 2015-11-26 Samsung Electronics Co., Ltd. System and method of providing voice-message call service
KR102319530B1 (ko) 2014-08-18 2021-10-29 삼성전자주식회사 사용자 입력 처리 방법 및 장치
US11151614B2 (en) * 2014-09-26 2021-10-19 Comcast Cable Communications, Llc Advertisements blended with user's digital content
KR102167719B1 (ko) 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US10950329B2 (en) 2015-03-13 2021-03-16 Mmodal Ip Llc Hybrid human and computer-assisted coding workflow
US20160365088A1 (en) * 2015-06-10 2016-12-15 Synapse.Ai Inc. Voice command response accuracy
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
CA3050101A1 (en) 2017-01-17 2018-07-26 Mmodal Ip Llc Methods and systems for manifestation and transmission of follow-up notifications
WO2019103930A1 (en) 2017-11-22 2019-05-31 Mmodal Ip Llc Automated code feedback system
US10936812B2 (en) * 2019-01-10 2021-03-02 International Business Machines Corporation Responsive spell checking for web forms
US11875780B2 (en) * 2021-02-16 2024-01-16 Vocollect, Inc. Voice recognition performance constellation graph
KR102540178B1 (ko) * 2022-09-08 2023-06-05 (주)액션파워 음성 인식 결과를 편집하는 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
DE19821422A1 (de) * 1998-05-13 1999-11-18 Philips Patentverwaltung Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034293A (ja) * 1999-06-30 2001-02-09 Internatl Business Mach Corp <Ibm> 音声を転写するための方法及び装置
US9772739B2 (en) 2000-05-03 2017-09-26 Nokia Technologies Oy Method for controlling a system, especially an electrical and/or electronic system comprising at least one application device
JP2006522363A (ja) * 2003-03-31 2006-09-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信頼水準の指示により音声認識の結果を訂正するためのシステム
WO2007043566A1 (ja) * 2005-10-13 2007-04-19 Nec Corporation 音声認識システムと音声認識方法およびプログラム
US8214209B2 (en) 2005-10-13 2012-07-03 Nec Corporation Speech recognition system, method, and computer readable medium that display recognition result formatted in accordance with priority
US8095371B2 (en) 2006-02-20 2012-01-10 Nuance Communications, Inc. Computer-implemented voice response method using a dialog state diagram to facilitate operator intervention
US8145494B2 (en) 2006-02-20 2012-03-27 Nuance Communications, Inc. Voice response system
JP2014202848A (ja) * 2013-04-03 2014-10-27 株式会社東芝 テキスト生成装置、方法、及びプログラム
JP2020201363A (ja) * 2019-06-09 2020-12-17 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム

Also Published As

Publication number Publication date
KR19990062566A (ko) 1999-07-26
US6006183A (en) 1999-12-21
EP0924687A3 (en) 2000-04-05
EP0924687A2 (en) 1999-06-23
KR100297514B1 (ko) 2001-08-07

Similar Documents

Publication Publication Date Title
JPH11231891A (ja) 音声を認識するシステムおよび方法
EP0840286B1 (en) Method and system for displaying a variable number of alternative words during speech recognition
US6487532B1 (en) Apparatus and method for distinguishing similar-sounding utterances speech recognition
US6785650B2 (en) Hierarchical transcription and display of input speech
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US5829000A (en) Method and system for correcting misrecognized spoken words or phrases
US6490563B2 (en) Proofreading with text to speech feedback
US5884258A (en) Method and system for editing phrases during continuous speech recognition
KR101279676B1 (ko) 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치
JPH11202889A (ja) 音声識別装置、発音矯正装置およびこれらの方法
US6983248B1 (en) Methods and apparatus for recognized word registration in accordance with speech recognition
US5995934A (en) Method for recognizing alpha-numeric strings in a Chinese speech recognition system
JP2001092485A (ja) 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
WO2007097390A1 (ja) 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
US7406408B1 (en) Method of recognizing phones in speech of any language
US20020152075A1 (en) Composite input method
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
US7302381B2 (en) Specifying arbitrary words in rule-based grammars
US7430503B1 (en) Method of combining corpora to achieve consistency in phonetic labeling
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
JPS634206B2 (ja)
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
US20140163987A1 (en) Speech recognition apparatus