JP2013083897A - 認識装置、認識プログラム、認識方法、生成装置、生成プログラムおよび生成方法 - Google Patents
認識装置、認識プログラム、認識方法、生成装置、生成プログラムおよび生成方法 Download PDFInfo
- Publication number
- JP2013083897A JP2013083897A JP2011225344A JP2011225344A JP2013083897A JP 2013083897 A JP2013083897 A JP 2013083897A JP 2011225344 A JP2011225344 A JP 2011225344A JP 2011225344 A JP2011225344 A JP 2011225344A JP 2013083897 A JP2013083897 A JP 2013083897A
- Authority
- JP
- Japan
- Prior art keywords
- word
- sentence
- words
- unit
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 102
- 238000003860 storage Methods 0.000 claims abstract description 116
- 238000004364 calculation method Methods 0.000 claims abstract description 103
- 238000010586 diagram Methods 0.000 description 34
- 238000004891 communication Methods 0.000 description 18
- 230000005236 sound signal Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 230000001174 ascending effect Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- PWNAWOCHVWERAR-UHFFFAOYSA-N Flumetralin Chemical compound [O-][N+](=O)C=1C=C(C(F)(F)F)C=C([N+]([O-])=O)C=1N(CC)CC1=C(F)C=CC=C1Cl PWNAWOCHVWERAR-UHFFFAOYSA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】認識装置20は、記憶部24と、第一の算出部26aと、第二の算出部26bと、決定部26cとを有する。記憶部24は、文章に含まれる単語と単語の文章内の位置を示す位置情報とを記憶する。第一の算出部26aは、入力された音声信号と、記憶部24に記憶された複数の単語を接続した文字列の読み情報とを比較して、類似度を算出する。第二の算出部26bは、記憶部24に記憶された各単語の位置情報に基づいて、接続した複数の単語間の近さを示す接続スコアを算出する。決定部26cは、類似度および接続スコアに基づいて、音声信号に対応する文字列を決定する。
【選択図】図4
Description
図2は、実施例1に係る生成装置の機能構成の一例を示す図である。図2の例では、生成装置10は、入力部11と、出力部12と、通信部13と、記憶部14と、制御部15とを有する。
図4は、実施例1に係る認識装置の機能構成の一例を示す図である。図4の例では、認識装置20は、音声入力部21と、出力部22と、通信部23と、記憶部24と、制御部25とを有する。
X=(x/N)+(x%N)+1 式(1)
Y=(y/N) 式(2)
次に、本実施例に係る生成装置10の処理の流れを説明する。図5は、実施例1に係る生成処理の手順を示すフローチャートである。この生成処理は、入力部11から制御部15に生成処理を実行する指示が入力された場合に実行される。
上述してきたように、認識装置20は、入力された音声信号と、辞書14bに登録された読み情報の複数の組み合わせに対応する音響モデルの複数の組み合わせのそれぞれとを比較し、類似度を音響モデルの組み合わせごとに算出する。また、認識装置20は、類似度を算出する際に組み合わされた読み情報に対応する単語または文字列の位置情報に基づいて、次のような処理を行う。すなわち、認識装置20は、組み合わされた複数の読み情報のそれぞれに対応する単語または文字列について、単語間または文字列間もしくは単語と文字列間の文章中の位置の近さを示す接続スコアを読み情報の組み合わせごとに算出する。そして、認識装置20は、複数の算出された和のうち、閾値を超え、かつ、最も値が大きい和に対応する文字列を、音声信号に対応する文字列として決定する。認識装置20によれば、文章に含まれる複数の単語であって、文章内で隣接しない複数の単語を接続した文字列を発話者が発話して、音声信号として入力された場合であっても、発話者が発話した音声を認識することができる。したがって、認識装置20によれば、精度良く音声の認識を行うことができる。
図7は、実施例2に係る生成装置の機能構成の一例を示す図である。図7に示すように、生成装置40は、記憶部14および制御部45を有する。かかる制御部45は、図2に示す実施例1に係る制御部15と比較して、生成部45cおよび格納部45dを有する点が異なる。また、記憶部14は、実施例1に係る記憶部14と比較して、辞書44bを記憶する点が異なる。なお、以下では、上記の実施例1と同様の機能を果たす各部については図2と同様の符号を付し、その説明は省略することとする。
図9は、実施例2に係る認識装置の構成の一例を示す図である。図9に示すように、認識装置50は、記憶部24および制御部55を有する。かかる制御部55は、図4に示す実施例1に係る制御部25と比較して、照合部56の第二の算出部56bを有する点が異なる。また、記憶部24は、実施例1に係る記憶部24と比較して、辞書44bを記憶する点が異なる。なお、以下では、上記の実施例1と同様の機能を果たす各部については図4と同様の符号を付し、その説明は省略することとする。
X=(x/N)+1 式(3)
Y=(y/N)−(y%N) 式(4)
次に、本実施例に係る生成装置40の処理の流れを説明する。図10は、実施例2に係る生成処理の手順を示すフローチャートである。この生成処理は、入力部11から制御部45に生成処理を実行する指示が入力された場合に実行される。
上述してきたように、認識装置50は、入力された音声信号と、辞書44bに登録された読み情報の複数の組み合わせに対応する音響モデルの複数の組み合わせのそれぞれとを比較し、類似度を音響モデルの組み合わせごとに算出する。また、認識装置50は、類似度を算出する際に組み合わされた読み情報に対応する単語または文字列の位置情報に基づいて、次のような処理を行う。すなわち、認識装置50は、組み合わされた複数の読み情報のそれぞれに対応する単語または文字列について、単語間または文字列間もしくは単語と文字列間の文章中の位置の近さを示す接続スコアを読み情報の組み合わせごとに算出する。そして、認識装置50は、複数の算出された和のうち、閾値を超え、かつ、最も値が大きい和に対応する文字列を、音声信号に対応する文字列として決定する。認識装置50によれば、文章に含まれる複数の単語であって、文章内で隣接しない複数の単語を接続した文字列を発話者が発話して、音声信号として入力された場合であっても、発話者が発話した音声を認識することができる。したがって、認識装置50によれば、精度良く音声の認識を行うことができる。
図12は、実施例3に係る認識装置の構成の一例を示す図である。図12に示すように、認識装置60は、記憶部24および制御部65を有する。かかる制御部65は、図4に示す実施例1に係る制御部25と比較して、照合部66の第二の算出部66bを有する点が異なる。また、記憶部24は、辞書64bを記憶するが、かかる辞書64bは、実施例1に係る辞書14bまたは実施例2に係る辞書44bと同一である。また、記憶部24は、言語モデル64c、単語辞書64dを記憶する。なお、以下では、上記の実施例1、2と同様の機能を果たす各部については図4、図9と同様の符号を付し、その説明は省略することとする。
次に、本実施例に係る認識装置60の処理の流れを説明する。図15は、実施例3に係る認識処理の手順を示すフローチャートである。この認識処理は、操作受付部(図示せず)から制御部65に認識処理を実行する指示が入力された場合に実行される。
上述してきたように、認識装置60は、入力された音声信号と、辞書64bに登録された読み情報の複数の組み合わせに対応する音響モデルの複数の組み合わせのそれぞれとを比較し、類似度を音響モデルの組み合わせごとに算出する。また、認識装置60は、類似度を算出する際に組み合わされた読み情報に対応する単語または文字列の位置情報に基づいて、次のような処理を行う。すなわち、認識装置60は、組み合わされた複数の読み情報のそれぞれに対応する単語または文字列について、単語間または文字列間もしくは単語と文字列間の文章中の位置の近さを示す接続スコアを読み情報の組み合わせごとに算出する。そして、認識装置60は、複数の算出された和のうち、閾値を超え、かつ、最も値が大きい和に対応する文字列を、音声信号に対応する文字列として決定する。認識装置60によれば、文章に含まれる複数の単語であって、文章内で隣接しない複数の単語を接続した文字列を発話者が発話して、音声信号として入力された場合であっても、発話者が発話した音声を認識することができる。したがって、認識装置60によれば、精度良く音声の認識を行うことができる。
図16は、実施例4に係る生成装置の機能構成の一例を示す図である。図16に示すように、生成装置70は、記憶部14および制御部75を有する。かかる制御部75は、図2に示す実施例1に係る制御部15と比較して、生成部75cおよび格納部75dを有する点が異なる。また、記憶部14は、実施例1に係る記憶部14と比較して、辞書74bおよび品詞番号表74cを記憶する点が異なる。なお、以下では、上記の実施例1、2、3と同様の機能を果たす各部については図2、図7と同様の符号を付し、その説明は省略することとする。
図19は、実施例4に係る認識装置の構成の一例を示す図である。図19に示すように、認識装置80は、記憶部24および制御部85を有する。かかる制御部85は、図4に示す実施例1に係る制御部25と比較して、照合部86の第二の算出部86bを有する点が異なる。また、記憶部24は、実施例1に係る記憶部24と比較して、辞書74bと、確率表84aを記憶する点が異なる。なお、以下では、上記の実施例1〜3と同様の機能を果たす各部については図4、図9、図12と同様の符号を付し、その説明は省略することとする。
次に、本実施例に係る生成装置70の処理の流れを説明する。図21は、実施例4に係る生成処理の手順を示すフローチャートである。この生成処理は、入力部11から制御部75に生成処理を実行する指示が入力された場合に実行される。
上述してきたように、認識装置80は、入力された音声信号と、辞書74bに登録された読み情報の複数の組み合わせに対応する音響モデルの複数の組み合わせのそれぞれとを比較し、類似度を音響モデルの組み合わせごとに算出する。また、認識装置80は、類似度を算出する際に組み合わされた読み情報に対応する単語または文字列の位置情報に基づいて、次のような処理を行う。すなわち、認識装置80は、組み合わされた複数の読み情報のそれぞれに対応する単語または文字列について、単語間または文字列間もしくは単語と文字列間の文章中の位置の近さを示す接続スコアを読み情報の組み合わせごとに算出する。そして、認識装置80は、複数の算出された和のうち、閾値を超え、かつ、最も値が大きい和に対応する文字列を、音声信号に対応する文字列として決定する。認識装置80によれば、文章に含まれる複数の単語であって、文章内で隣接しない複数の単語を接続した文字列を発話者が発話して、音声信号として入力された場合であっても、発話者が発話した音声を認識することができる。したがって、認識装置80によれば、精度良く音声の認識を行うことができる。
また、上記の各実施例で説明した生成装置の各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することもできる。そこで、以下では、図23を用いて、上記の実施例で説明した生成装置と同様の機能を有する生成プログラムを実行するコンピュータの一例を説明する。図23は、生成プログラムを実行するコンピュータを示す図である。
また、上記の各実施例で説明した認識装置の各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することもできる。そこで、以下では、図24を用いて、上記の実施例で説明した認識装置と同様の機能を有する認識プログラムを実行するコンピュータの一例を説明する。図24は、認識プログラムを実行するコンピュータを示す図である。
20 認識装置
24 記憶部
25 制御部
26 照合部
26a 第一の算出部
26b 第二の算出部
26c 決定部
Claims (13)
- 文章に含まれる単語と該単語の文章内の位置を示す位置情報とを記憶する記憶部と、
入力された音声信号と、前記記憶部に記憶された複数の単語を接続した文字列の読み情報とを比較して、類似度を算出する第一の算出部と、
前記記憶部に記憶された各単語の位置情報に基づいて、接続した複数の単語間の近さを示す接続スコアを算出する第二の算出部と、
前記類似度および前記接続スコアに基づいて、前記音声信号に対応する文字列を決定する決定部と
を有することを特徴とする認識装置。 - 前記記憶部は、さらに、複数の単語が結合された単語列と該単語列の文章内の位置を示す位置情報とを記憶し、
前記第一の算出部は、さらに、前記単語列を単語として、前記類似度を算出し、
前記第二の算出部は、さらに、前記単語列を単語として、前記接続スコアを算出する
ことを特徴とする請求項1に記載の認識装置。 - 前記記憶部は、さらに、前記文章に含まれる文に対応させて該文を識別するための識別情報を記憶し、
前記第二の算出部は、前記記憶部に記憶された各単語の位置情報および識別情報に基づいて、文ごとに、接続した複数の単語間の近さを示す接続スコアを算出する
ことを特徴とする請求項1または2に記載の認識装置。 - 前記記憶部は、さらに、第一の単語に第二の単語が接続される可能性を示す情報を記憶し、
前記第二の算出部は、さらに、前記記憶部に記憶された第一の単語に第二の単語が接続される可能性を示す情報に基づいて、前記接続スコアを補正する
ことを特徴とする請求項1、2、3のいずれか一つに記載の認識装置。 - 前記記憶部は、さらに、接続される複数の単語のそれぞれの品詞の組み合わせの適否にかかる情報を記憶し、
前記第二の算出部は、さらに、前記記憶部に記憶された接続される複数の単語のそれぞれの品詞の組み合わせの適否にかかる情報に基づいて、前記接続スコアを補正する
ことを特徴とする請求項1〜4のいずれか一つに記載の認識装置。 - コンピュータに、
入力された音声信号と、文章に含まれる単語と該単語の文章内の位置を示す位置情報とを記憶する記憶部に記憶された複数の単語を接続した文字列の読み情報とを比較して、類似度を算出し、
前記記憶部に記憶された各単語の位置情報に基づいて、接続した複数の単語間の近さを示す接続スコアを算出し、
前記類似度および前記接続スコアに基づいて、前記音声信号に対応する文字列を決定する
各処理を実行させることを特徴とする認識プログラム。 - コンピュータが実行する認識方法であって、
入力された音声信号と、文章に含まれる単語と該単語の文章内の位置を示す位置情報とを記憶する記憶部に記憶された複数の単語を接続した文字列の読み情報とを比較して、類似度を算出し、
前記記憶部に記憶された各単語の位置情報に基づいて、接続した複数の単語間の近さを示す接続スコアを算出し、
前記類似度および前記接続スコアに基づいて、前記音声信号に対応する文字列を決定する
ことを特徴とする認識方法。 - 文章を単語ごとに分割する分割部と、
前記分割部により分割された単語の文章内の位置を示す位置情報を生成する生成部と、
前記単語と該単語の文章内の位置を示す位置情報とを対応付けて記憶部に格納して、請求項1〜5のいずれか一つに記載の認識装置で用いられる情報を生成する格納部と
を有することを特徴とする生成装置。 - 文章を単語ごとに分割する分割部と、
前記分割部により分割された単語について、該単語から該単語に続く1から所定数の単語までのそれぞれの単語列を生成し、前記単語の文章内の位置を示す位置情報、および、生成した単語列の文章内の位置を示す位置情報を生成する生成部と、
前記単語と該単語の文章内の位置を示す位置情報とを対応付けて記憶部に格納するとともに、前記単語列と該単語列の文章内の位置を示す位置情報とを対応付けて前記記憶部に格納する格納部と
を有することを特徴とする生成装置。 - コンピュータに、
文章を単語ごとに分割し、
分割された単語の文章内の位置を示す位置情報を生成し、
前記単語と該単語の文章内の位置を示す位置情報とを対応付けて記憶部に格納して、請求項1〜5のいずれか一つに記載の認識装置で用いられる情報を生成する
各処理を実行させることを特徴とする生成プログラム。 - コンピュータが実行する生成方法であって、
文章を単語ごとに分割し、
分割された単語の文章内の位置を示す位置情報を生成し、
前記単語と該単語の文章内の位置を示す位置情報とを対応付けて記憶部に格納して、請求項1〜5のいずれか一つに記載の認識装置で用いられる情報を生成する
ことを特徴とする生成方法。 - コンピュータに、
文章を単語ごとに分割し、
分割された単語について、該単語から該単語に続く1から所定数の単語までのそれぞれの単語列を生成し、前記単語の文章内の位置を示す位置情報、および、生成した単語列の文章内の位置を示す位置情報を生成し、
前記単語と該単語の文章内の位置を示す位置情報とを対応付けて記憶部に格納するとともに、前記単語列と該単語列の文章内の位置を示す位置情報とを対応付けて前記記憶部に格納する
各処理を実行させることを特徴とする生成プログラム。 - コンピュータが実行する生成方法であって、
文章を単語ごとに分割し、
分割された単語について、該単語から該単語に続く1から所定数の単語までのそれぞれの単語列を生成し、前記単語の文章内の位置を示す位置情報、および、生成した単語列の文章内の位置を示す位置情報を生成し、
前記単語と該単語の文章内の位置を示す位置情報とを対応付けて記憶部に格納するとともに、前記単語列と該単語列の文章内の位置を示す位置情報とを対応付けて前記記憶部に格納する
ことを特徴とする生成方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011225344A JP5799733B2 (ja) | 2011-10-12 | 2011-10-12 | 認識装置、認識プログラムおよび認識方法 |
US13/586,533 US9082404B2 (en) | 2011-10-12 | 2012-08-15 | Recognizing device, computer-readable recording medium, recognizing method, generating device, and generating method |
CN201210313705XA CN103050115A (zh) | 2011-10-12 | 2012-08-29 | 识别装置、识别方法、生成装置和生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011225344A JP5799733B2 (ja) | 2011-10-12 | 2011-10-12 | 認識装置、認識プログラムおよび認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013083897A true JP2013083897A (ja) | 2013-05-09 |
JP5799733B2 JP5799733B2 (ja) | 2015-10-28 |
Family
ID=48062731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011225344A Expired - Fee Related JP5799733B2 (ja) | 2011-10-12 | 2011-10-12 | 認識装置、認識プログラムおよび認識方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9082404B2 (ja) |
JP (1) | JP5799733B2 (ja) |
CN (1) | CN103050115A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101574856B1 (ko) * | 2013-11-11 | 2015-12-04 | 주식회사 엠. 피. 씨 | 음성 관련 정보 제공 장치 및 방법과 이를 수행하는 프로그램을 저장하는 저장 매체 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9747900B2 (en) | 2013-05-24 | 2017-08-29 | Google Technology Holdings LLC | Method and apparatus for using image data to aid voice recognition |
US9472186B1 (en) * | 2014-01-28 | 2016-10-18 | Nvoq Incorporated | Automated training of a user audio profile using transcribed medical record recordings |
US9741342B2 (en) * | 2014-11-26 | 2017-08-22 | Panasonic Intellectual Property Corporation Of America | Method and apparatus for recognizing speech by lip reading |
JP2017004127A (ja) * | 2015-06-05 | 2017-01-05 | 富士通株式会社 | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 |
CN107305575B (zh) | 2016-04-25 | 2021-01-26 | 北京京东尚科信息技术有限公司 | 人机智能问答系统的断句识别方法和装置 |
CN106445915B (zh) * | 2016-09-14 | 2020-04-28 | 安徽科大讯飞医疗信息技术有限公司 | 一种新词发现方法及装置 |
US10572586B2 (en) * | 2018-02-27 | 2020-02-25 | International Business Machines Corporation | Technique for automatically splitting words |
CN112100381B (zh) * | 2020-09-22 | 2022-05-17 | 福建天晴在线互动科技有限公司 | 一种文本相似度进行量化的方法及其系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097286A (ja) * | 1996-08-02 | 1998-04-14 | Fujitsu Ltd | 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体 |
JP2001343994A (ja) * | 2000-06-01 | 2001-12-14 | Nippon Hoso Kyokai <Nhk> | 音声認識誤り検出装置および記憶媒体 |
JP2005227686A (ja) * | 2004-02-16 | 2005-08-25 | Sharp Corp | 音声認識装置、音声認識プログラムおよび記録媒体。 |
JP2008181537A (ja) * | 2008-02-18 | 2008-08-07 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
Family Cites Families (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19501599C1 (de) * | 1995-01-20 | 1996-05-02 | Daimler Benz Ag | Verfahren zur Spracherkennung |
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
GB2303955B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5857099A (en) * | 1996-09-27 | 1999-01-05 | Allvoice Computing Plc | Speech-to-text dictation system with audio message capability |
US6961700B2 (en) * | 1996-09-24 | 2005-11-01 | Allvoice Computing Plc | Method and apparatus for processing the output of a speech recognition engine |
JP4267101B2 (ja) * | 1997-11-17 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声識別装置、発音矯正装置およびこれらの方法 |
US6223158B1 (en) * | 1998-02-04 | 2001-04-24 | At&T Corporation | Statistical option generator for alpha-numeric pre-database speech recognition correction |
JP3930138B2 (ja) * | 1998-02-27 | 2007-06-13 | 株式会社東芝 | 情報解析方法および情報解析プログラムを記憶した媒体 |
DE19821422A1 (de) * | 1998-05-13 | 1999-11-18 | Philips Patentverwaltung | Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern |
JP3004254B2 (ja) * | 1998-06-12 | 2000-01-31 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 |
US20020116196A1 (en) * | 1998-11-12 | 2002-08-22 | Tran Bao Q. | Speech recognizer |
US6721697B1 (en) * | 1999-10-18 | 2004-04-13 | Sony Corporation | Method and system for reducing lexical ambiguity |
US6542867B1 (en) * | 2000-03-28 | 2003-04-01 | Matsushita Electric Industrial Co., Ltd. | Speech duration processing method and apparatus for Chinese text-to-speech system |
US7280964B2 (en) * | 2000-04-21 | 2007-10-09 | Lessac Technologies, Inc. | Method of recognizing spoken language with recognition of language color |
WO2001097213A1 (en) * | 2000-06-12 | 2001-12-20 | L & H Holdings Usa, Inc. | Speech recognition using utterance-level confidence estimates |
JP3639776B2 (ja) | 2000-07-28 | 2005-04-20 | シャープ株式会社 | 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 |
CN1193342C (zh) * | 2000-09-08 | 2005-03-16 | 皇家菲利浦电子有限公司 | 具有替换命令的语音识别方法 |
US7043422B2 (en) * | 2000-10-13 | 2006-05-09 | Microsoft Corporation | Method and apparatus for distribution-based language model adaptation |
US20020087309A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented speech expectation-based probability method and system |
JP3961780B2 (ja) | 2001-05-15 | 2007-08-22 | 三菱電機株式会社 | 言語モデル学習装置およびそれを用いた音声認識装置 |
US6934675B2 (en) * | 2001-06-14 | 2005-08-23 | Stephen C. Glinski | Methods and systems for enabling speech-based internet searches |
US6999931B2 (en) * | 2002-02-01 | 2006-02-14 | Intel Corporation | Spoken dialog system using a best-fit language model and best-fit grammar |
WO2003067471A1 (fr) * | 2002-02-04 | 2003-08-14 | Celestar Lexico-Sciences, Inc. | Appareil et procede permettant de traiter des connaissances dans des documents |
US20030149562A1 (en) * | 2002-02-07 | 2003-08-07 | Markus Walther | Context-aware linear time tokenizer |
US7143035B2 (en) * | 2002-03-27 | 2006-11-28 | International Business Machines Corporation | Methods and apparatus for generating dialog state conditioned language models |
US20030204399A1 (en) * | 2002-04-25 | 2003-10-30 | Wolf Peter P. | Key word and key phrase based speech recognizer for information retrieval systems |
US7299180B2 (en) * | 2002-12-10 | 2007-11-20 | International Business Machines Corporation | Name entity extraction using language models |
EP1603116A1 (en) * | 2003-02-19 | 2005-12-07 | Matsushita Electric Industrial Co., Ltd. | Speech recognition device and speech recognition method |
JP4224333B2 (ja) * | 2003-03-31 | 2009-02-12 | 富士通株式会社 | 音声認識装置及び方法 |
EP1473708B1 (en) * | 2003-04-29 | 2007-10-17 | Sony Deutschland GmbH | Method for recognizing speech |
US7289956B2 (en) * | 2003-05-27 | 2007-10-30 | Microsoft Corporation | System and method for user modeling to enhance named entity recognition |
JP4040573B2 (ja) * | 2003-12-12 | 2008-01-30 | キヤノン株式会社 | 音声認識装置および方法 |
US7542907B2 (en) * | 2003-12-19 | 2009-06-02 | International Business Machines Corporation | Biasing a speech recognizer based on prompt context |
US7567896B2 (en) * | 2004-01-16 | 2009-07-28 | Nuance Communications, Inc. | Corpus-based speech synthesis based on segment recombination |
US7542971B2 (en) * | 2004-02-02 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for collaborative note-taking |
WO2005122143A1 (ja) * | 2004-06-08 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置および音声認識方法 |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
WO2006059451A1 (ja) * | 2004-11-30 | 2006-06-08 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置 |
KR20080005208A (ko) * | 2005-04-25 | 2008-01-10 | 가부시키가이샤 아이.피.비. | 정보해석 보고서 자동 작성 장치, 정보해석 보고서 자동작성 프로그램 및 정보해석 보고서 자동 작성 방법 |
JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US20070078653A1 (en) * | 2005-10-03 | 2007-04-05 | Nokia Corporation | Language model compression |
KR100679051B1 (ko) * | 2005-12-14 | 2007-02-05 | 삼성전자주식회사 | 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법 |
JP5212910B2 (ja) * | 2006-07-07 | 2013-06-19 | 日本電気株式会社 | 音声認識装置、音声認識方法、および音声認識用プログラム |
US8214210B1 (en) * | 2006-09-19 | 2012-07-03 | Oracle America, Inc. | Lattice-based querying |
US8396878B2 (en) * | 2006-09-22 | 2013-03-12 | Limelight Networks, Inc. | Methods and systems for generating automated tags for video files |
JP4393494B2 (ja) * | 2006-09-22 | 2010-01-06 | 株式会社東芝 | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
US7912700B2 (en) * | 2007-02-08 | 2011-03-22 | Microsoft Corporation | Context based word prediction |
US8620658B2 (en) * | 2007-04-16 | 2013-12-31 | Sony Corporation | Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition |
JP4412504B2 (ja) * | 2007-04-17 | 2010-02-10 | 本田技研工業株式会社 | 音声認識装置、音声認識方法、及び音声認識用プログラム |
US8886521B2 (en) * | 2007-05-17 | 2014-11-11 | Redstart Systems, Inc. | System and method of dictation for a speech recognition command system |
WO2009019830A1 (ja) * | 2007-08-03 | 2009-02-12 | Panasonic Corporation | 関連語提示装置 |
JP4887264B2 (ja) * | 2007-11-21 | 2012-02-29 | 株式会社日立製作所 | 音声データ検索システム |
JP5440177B2 (ja) * | 2007-12-21 | 2014-03-12 | 日本電気株式会社 | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
US20090198488A1 (en) * | 2008-02-05 | 2009-08-06 | Eric Arno Vigen | System and method for analyzing communications using multi-placement hierarchical structures |
US8145482B2 (en) * | 2008-05-25 | 2012-03-27 | Ezra Daya | Enhancing analysis of test key phrases from acoustic sources with key phrase training models |
JP5200712B2 (ja) * | 2008-07-10 | 2013-06-05 | 富士通株式会社 | 音声認識装置、音声認識方法及びコンピュータプログラム |
US9424246B2 (en) * | 2009-03-30 | 2016-08-23 | Touchtype Ltd. | System and method for inputting text into electronic devices |
US8712774B2 (en) * | 2009-03-30 | 2014-04-29 | Nuance Communications, Inc. | Systems and methods for generating a hybrid text string from two or more text strings generated by multiple automated speech recognition systems |
US8229743B2 (en) * | 2009-06-23 | 2012-07-24 | Autonomy Corporation Ltd. | Speech recognition system |
US9892730B2 (en) * | 2009-07-01 | 2018-02-13 | Comcast Interactive Media, Llc | Generating topic-specific language models |
WO2011050494A1 (en) * | 2009-10-29 | 2011-05-05 | Google Inc. | Generating input suggestions |
JP5296029B2 (ja) * | 2010-09-15 | 2013-09-25 | 株式会社東芝 | 文章提示装置、文章提示方法及びプログラム |
CN102411563B (zh) * | 2010-09-26 | 2015-06-17 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
US8838433B2 (en) * | 2011-02-08 | 2014-09-16 | Microsoft Corporation | Selection of domain-adapted translation subcorpora |
JP6066354B2 (ja) * | 2011-07-01 | 2017-01-25 | 日本電気株式会社 | 信頼度計算の方法及び装置 |
US8650031B1 (en) * | 2011-07-31 | 2014-02-11 | Nuance Communications, Inc. | Accuracy improvement of spoken queries transcription using co-occurrence information |
US20130339001A1 (en) * | 2012-06-19 | 2013-12-19 | Microsoft Corporation | Spelling candidate generation |
US8909526B2 (en) * | 2012-07-09 | 2014-12-09 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
-
2011
- 2011-10-12 JP JP2011225344A patent/JP5799733B2/ja not_active Expired - Fee Related
-
2012
- 2012-08-15 US US13/586,533 patent/US9082404B2/en active Active
- 2012-08-29 CN CN201210313705XA patent/CN103050115A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097286A (ja) * | 1996-08-02 | 1998-04-14 | Fujitsu Ltd | 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体 |
JP2001343994A (ja) * | 2000-06-01 | 2001-12-14 | Nippon Hoso Kyokai <Nhk> | 音声認識誤り検出装置および記憶媒体 |
JP2005227686A (ja) * | 2004-02-16 | 2005-08-25 | Sharp Corp | 音声認識装置、音声認識プログラムおよび記録媒体。 |
JP2008181537A (ja) * | 2008-02-18 | 2008-08-07 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101574856B1 (ko) * | 2013-11-11 | 2015-12-04 | 주식회사 엠. 피. 씨 | 음성 관련 정보 제공 장치 및 방법과 이를 수행하는 프로그램을 저장하는 저장 매체 |
Also Published As
Publication number | Publication date |
---|---|
US20130096918A1 (en) | 2013-04-18 |
CN103050115A (zh) | 2013-04-17 |
US9082404B2 (en) | 2015-07-14 |
JP5799733B2 (ja) | 2015-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5799733B2 (ja) | 認識装置、認識プログラムおよび認識方法 | |
US10176804B2 (en) | Analyzing textual data | |
US10037758B2 (en) | Device and method for understanding user intent | |
US10134388B1 (en) | Word generation for speech recognition | |
US11823678B2 (en) | Proactive command framework | |
JP7092953B2 (ja) | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 | |
KR101590724B1 (ko) | 음성 인식 오류 수정 방법 및 이를 수행하는 장치 | |
JP6815899B2 (ja) | 出力文生成装置、出力文生成方法および出力文生成プログラム | |
JP2015094848A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US10152298B1 (en) | Confidence estimation based on frequency | |
JP7295839B2 (ja) | 音節に基づく自動音声認識 | |
KR20100019596A (ko) | 음성인식을 이용한 언어 번역 방법 및 장치 | |
TW201517018A (zh) | 語音辨識方法及其電子裝置 | |
WO2022105235A1 (zh) | 一种信息识别方法、装置及存储介质 | |
TW202020854A (zh) | 語音辨識系統及其方法、與電腦程式產品 | |
KR20120038198A (ko) | 음성 인식 장치 및 방법 | |
WO2014036827A1 (zh) | 一种文本校正方法及用户设备 | |
JP7544989B2 (ja) | ルックアップテーブルリカレント言語モデル | |
JP4820240B2 (ja) | 単語分類装置及び音声認識装置及び単語分類プログラム | |
KR20090063546A (ko) | 음성인식 장치 및 방법 | |
US20230186898A1 (en) | Lattice Speech Corrections | |
JP2024038566A (ja) | キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム | |
CN117378005A (zh) | 用于自动语音识别的多语言重新评分模型 | |
US11900072B1 (en) | Quick lookup for speech translation | |
Marinčič et al. | Analysis of automatic stress assignment in Slovene |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140603 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150320 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150728 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150810 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5799733 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |