JP2011186491A - テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル - Google Patents
テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル Download PDFInfo
- Publication number
- JP2011186491A JP2011186491A JP2011106732A JP2011106732A JP2011186491A JP 2011186491 A JP2011186491 A JP 2011186491A JP 2011106732 A JP2011106732 A JP 2011106732A JP 2011106732 A JP2011106732 A JP 2011106732A JP 2011186491 A JP2011186491 A JP 2011186491A
- Authority
- JP
- Japan
- Prior art keywords
- text
- section
- speech recognition
- topic
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Abstract
【解決手段】第1のスピーチ認識パスから取得されうるテキスト文書は、セグメント化されそれぞれの取得されたセクションごとにトピック特有のモデルの対応付けを施される。モデルの組の中の各モデルは、テキスト処理又はフォーマッティング規則、言語モデル蓋然性についての統計情報を提供する。更にスピーチ認識及び/又はフォーマッティングシステムの他の特性(例えば発話速度の設定)が統計モデルにおいて符号化されることができる。モデルは注釈付き訓練データに基づいて及び/又は手動のコーディングによって生成される。テキストのセクションに対するモデルの対応付けに基づき、改善されたスピーチ認識及び/又はテキストフォーマッティングプロシージャが実施される。
【選択図】図2
Description
(付記1)訓練データに基づいて及び/又は手動のコーディングによって生成される統計モデルの組を使用して、テキストを変更する方法であって、
前記テキストを複数のセクションにセグメント化するステップと、
前記統計モデルの組のうちの1つを各セクションに対応付けるステップと、
前記セクションに対応付けられる前記統計モデルに関して、各セクションごとにテキスト変更プロシージャを実施するステップと、
を含む方法。
(付記2)前記テキスト変更プロシージャが、テキストフォーマッティングプロセスを含み、前記対応付けられた統計モデルは、前記テキストフォーマッティングプロセスについて、前記セクションのトピックに特有のフォーマッティング規則を提供する、付記1に記載の方法。
(付記3)前記テキストは、第1のスピーチ認識パスによって生成され、前記変更プロシージャは、各セクションに対応付けられる前記統計モデルの言語モデル及び/又はスピーチ認識パラメータを使用する、第2のスピーチ認識パスを含む、付記1に記載の方法。
(付記4)各統計モデルは、トピック特有の言語モデル及びトピック特有のフォーマッティング規則を含み、前記言語モデルは、トピック特有の語彙を有する、付記1乃至付記3のいずれか1項に記載の方法。
(付記5)統計モデルに対応付けられる前記セクションが、前記統計モデルを解析されたセクションに適応させるために、解析される、付記1乃至付記4のいずれか1項に記載の方法。
(付記6)訓練データに基づいて生成される言語モデルの組を使用して、スピーチをテキストに転写する方法であって、
スピーチの第1の部分を認識するためにスピーチ認識プロセスを始めるステップと、
前記スピーチの前記認識された第1の部分に基づいて、前記言語モデルの組のうち第1の言語モデルを選択し、前記スピーチの前記第1の部分に前記第1の言語モデルを対応付けるステップと、
前記第1の言語モデルを使用することによって前記スピーチの以降の部分を認識するために、前記スピーチ認識プロセスを続けるステップと、
前記スピーチの以降の部分が、前記第1の言語モデルよりも第2の言語モデルによってより良くモデル化される場合、前記第2の言語モデルを選択し、前記スピーチの前記以降の部分に前記第2の言語モデルを対応付けるステップと、
を含む方法。
(付記7)前記統計モデルは、更に、トピック特有のスピーチ認識パスを提供するために、トピック特有のスピーチ認識パラメータを含む、付記3乃至付記6のいずれか1項に記載の方法。
(付記8)訓練データに基づいて及び/又は手動のコーディングによって生成される統計モデルの組を使用して、テキストを変更するコンピュータシステムであって、
前記テキストを複数のセクションにセグメント化する手段と、
各セクションに前記統計モデルの組のうちの1つを対応付ける手段と、
前記セクションに対応付けられる前記統計モデルに関して、各セクションごとにテキスト変更プロシージャを実施する手段と、
を有するコンピュータシステム。
(付記9)前記テキスト変更プロシージャを実施する前記手段は、テキストフォーマッティングプロシージャを達成するように構成され、前記対応付けられた統計モデルは、前記テキストフォーマッティングプロシージャについて、前記セクションのトピックに特有のフォーマッティング規則を提供する、付記8に記載のコンピュータシステム。
(付記10)前記テキストは、第1のスピーチ認識パスによって生成され、前記テキスト変更プロシージャを実施する前記手段は、各セクションに対応付けられる前記統計モデルの言語モデル及び/又はスピーチ認識パラメータを使用して、第2のスピーチ認識パスを達成するように構成される、付記8に記載のコンピュータシステム。
(付記11)各統計モデルは、トピック特有の言語モデル及びトピック特有のフォーマッティング規則を含み、前記言語モデルは、トピック特有の語彙を有する、付記8乃至付記10のいずれか1項に記載のコンピュータシステム。
(付記12)統計モデルを解析されたセクションに適応させるために、統計モデルに対応付けられる前記セクションを解析する手段を更に有する、付記8乃至付記11のいずれか1項に記載のコンピュータシステム。
(付記13)訓練データに基づいて生成される言語モデルの組を使用して、スピーチをテキストに転写するコンピュータシステムであって、
スピーチ認識プロセスを始める手段であって、スピーチの第1の部分を認識するように構成される手段と、
前記スピーチの前記認識された第1の部分に基づいて、前記言語モデルの前記組のうち第1の言語モデルを選択する手段、及び 前記スピーチの前記第1の部分に前記第1の言語モデルを対応付ける手段と、
前記スピーチ認識プロセスを続ける手段であって、前記第1の言語モデルを使用することによって前記スピーチの以降の部分を認識するように構成される手段と、
前記スピーチの以降の部分が、前記第1の言語モデルよりも第2の言語モデルによってより良くモデル化される場合、前記第2の言語モデルを選択し、前記スピーチの前記以降の部分に前記第2の言語モデルを対応付ける手段と、
を有するコンピュータシステム。
(付記14)訓練データに基づいて及び/又は手動のコーディングによって生成される統計モデルの組を使用して、テキストを変更するコンピュータプログラムであって、
前記テキストを複数のセクションにセグメント化するプログラム手段と、
各セクションに統計モデルの組のうちの1つを対応付け、前記セクションに対応付けられる統計モデルに関して、各セクションごとにテキスト変更プロシージャを実施するプログラム手段と、
を含むコンピュータプログラム。
(付記15)前記テキスト変更プロシージャを実施する前記プログラム手段は、テキストフォーマッティングプロシージャを達成するように構成され、前記対応付けられた統計モデルは、前記テキストフォーマッティングプロシージャについて、前記セクションのトピックに特有のフォーマッティング規則を提供する、付記14に記載のコンピュータプログラム。
(付記16)前記テキストは、第1のスピーチ認識パスによって生成され、前記テキスト変更プロシージャを実施する前記プログラム手段は、各セクションに対応付けられる言語モデル及び/又はスピーチ認識パラメータを使用して、第2のスピーチ認識パスを達成するように構成される、付記15に記載のコンピュータプログラム。
(付記17)各統計モデルは、トピック特有の言語モデル及びトピック特有のフォーマッティング規則を含み、前記言語モデルは、トピック特有の語彙を有する、付記14乃至付記16のいずれか1項に記載のコンピュータプログラム。
(付記18)統計モデルを解析されたセクションに適応させるために、統計モデルに対応付けられるセクションを解析する手段を更に有する、付記14乃至付記17のいずれか1項に記載のコンピュータプログラム。
(付記19)訓練データに基づいて及び/又は手動のコーディングによって生成される言語モデルの組を使用して、スピーチをテキストに転写するコンピュータプログラムであって、
スピーチの第1の部分を認識するために、スピーチ認識プロセスを始め、
前記スピーチの前記認識された第1の部分に基づいて、前記言語モデルの組のうち第1の言語モデルを選択し、前記スピーチの前記第1の部分に前記第1の言語モデルを対応付け、
前記第1の言語モデルを使用することによって前記スピーチの以降の部分を認識するために、前記スピーチ認識プロセスを続け、
前記スピーチの以降の部分が、前記第1の言語モデルより第2の言語モデルによってより良くモデル化される場合、前記第2の言語モデルを選択し、前記スピーチの前記以降の部分に前記第2の言語モデルを対応付ける、
ように構成されるプログラム手段を含む、コンピュータプログラム。
402 セクション
404 セクション
406 統計モデル
408 統計モデル
410 言語モデル
412 規則
414 規則
416 言語モデル
418 規則
420 規則
700 コンピュータシステム
702 スピーチ
704 テキスト
706 処理ユニット
708 テキスト記憶モジュール
710 構造化されたテキスト記憶モジュール
712 言語モデルモジュール
Claims (17)
- トレーニングデータ及び/またはマニュアルコーディングに基づきそれぞれ生成された複数の統計モデルを用いてテキストを変更する、コンピュータで実施する方法であって、
格納した命令を実行する処理ユニットを動作させて、前記テキストを複数のセクションにセグメント化する段階と、
格納された命令を実行する処理ユニットを動作させて、前記セクションのテキストの分析に応じて、前記複数の統計モデルのうちの一統計モデルを各セクションに対応付ける段階と、
格納した命令を実行する処理ユニットを用いて、各セクションに対してテキスト変更プロシージャを実行して、そのセクションに対応付けた統計モデルの規則と語彙とを用いて、そのセクションのテキストを変更する段階とを有する、方法。 - 前記テキスト変更プロシージャは、対応付けた統計モデルが前記セクションのトピックに特有のフォーマット規則を提供するテキストフォーマットプロセスを有する、請求項1に記載の方法。
- 第1の音声認識パスにより前記テキストを生成する段階をさらに有し、
前記テキスト変更プロシージャは、各セクションに対応付けられた統計モデルの言語モデル及び/または音声認識パラメータを利用する第2の音声認識パスを有する、請求項1に記載の方法。 - 各統計モデルは、トピックに特有な言語モデルとトピックに特有なフォーマット規則とを有し、前記言語モデルはトピックに特有な語彙を有する、請求項1ないし3いずれか一項に記載の方法。
- 前記統計モデルを対応付けたセクションを分析して、前記統計モデルを、分析したセクションに適応させる、請求項1ないし4いずれか一項に記載の方法。
- 前記統計モデルは、トピックに特有な音声認識パスを提供するために、トピックに特有な音声認識パラメータをさらに有する、請求項3ないし5いずれか一項に記載の方法。
- トレーニングデータ及びマニュアルコーディングにより生成した複数の統計モデルを用いてテキストを変更するコンピュータシステムであって、
前記テキストを複数のセクションにセグメント化する手段と、
前記複数の統計モデルのうちの一統計モデルを各セクションに対応付ける手段と、
各セクションに対して、そのセクションに対応付けた統計モデルによりテキスト変更プロシージャを実行する手段と、を有するコンピュータシステム。 - 前記テキスト変更プロシージャを実行する手段は、対応付けた統計モデルが前記セクションのトピックに特有のフォーマット規則を提供するテキストフォーマットプロセスを実施するように構成されている、請求項7に記載のコンピュータシステム。
- 前記テキストは第1の音声認識パスにより生成され、
前記テキスト変更プロシージャを実行する手段は、各セクションに対応付けられた統計モデルの言語モデル及び/または音声認識パラメータを利用する第2の音声認識パスを実施するように構成されている、請求項7に記載のコンピュータシステム。 - 各統計モデルは、トピックに特有な言語モデルとトピックに特有なフォーマット規則とを有し、前記言語モデルはトピックに特有な語彙を有する、請求項7ないし9いずれか一項に記載のコンピュータシステム。
- 統計モデルをセクションに適応させるため、前記統計モデルを対応付けたセクションを分析する手段をさらに有する、請求項7ないし10いずれか一項に記載のコンピュータシステム。
- トレーニングデータにより生成された複数の言語モデルを用いて音声をテキストに変換するコンピュータシステムであって、
音声の第1部分を認識するように構成された、音声認識プロセスを開始する手段と、
認識した音声の第1部分に基づき前記複数の言語モデルのうちの第1の言語モデルを選択する手段と、前記音声の第1部分に、前記第1の言語モデルを対応付ける手段と、
前記第1の言語モデルを利用して音声の後続の部分を認識するように構成された、前記音声認識プロセスを継続する手段と、
音声の後続の部分が前記第1の言語モデルと比較して前記第2の言語モデルにより、より良くモデル化できる場合、第2の言語モデルを選択して、音声の後続の部分に前記第2の言語モデルを対応付ける手段と、を有する、コンピュータシステム。 - トレーニングデータ及びマニュアルコーディングにより生成した複数の統計モデルを用いてテキストを変更するコンピュータプログラム製品であって、
前記コンピュータプログラム製品は、処理ユニットにより実行されると次の手段を提供する命令がエンコードされたコンピュータ読み取り可能媒体を有する:
前記テキストを複数のセクションにセグメント化する手段と、
前記複数の統計モデルのうちの一統計モデルを各セクションに対応付ける手段と、
各セクションに対して、そのセクションに対応付けた統計モデルによりテキスト変更プロシージャを実行する手段。 - 前記テキスト変更プロシージャを実行するプログラム手段は、対応付けた統計モデルが前記セクションのトピックに特有のフォーマット規則を提供するテキストフォーマットプロセスを実行する、請求項14に記載のコンピュータプログラム製品。
- 前記テキストは第1の音声認識パスにより生成され、
前記テキスト変更プロシージャを実行する手段は、各セクションに対応付けられた言語モデル及び/または音声認識パラメータを利用する第2の音声認識パスを実施するように構成されている、請求項14に記載のコンピュータプログラム製品。 - 各統計モデルは、トピックに特有な言語モデルとトピックに特有なフォーマット規則とを有し、前記言語モデルはトピックに特有な語彙を有する、請求項13ないし15いずれか一項に記載のコンピュータプログラム製品。
- 統計モデルをセクションに適応させるため、前記統計モデルを対応付けたセクションを分析する手段をさらに有する、請求項13ないし15いずれか一項に記載のコンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03104314 | 2003-11-21 | ||
EP03104314.4 | 2003-11-21 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006540704A Division JP5255769B2 (ja) | 2003-11-21 | 2004-11-12 | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011186491A true JP2011186491A (ja) | 2011-09-22 |
JP5330450B2 JP5330450B2 (ja) | 2013-10-30 |
Family
ID=34610118
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006540704A Expired - Fee Related JP5255769B2 (ja) | 2003-11-21 | 2004-11-12 | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル |
JP2011106732A Expired - Fee Related JP5330450B2 (ja) | 2003-11-21 | 2011-05-11 | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006540704A Expired - Fee Related JP5255769B2 (ja) | 2003-11-21 | 2004-11-12 | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル |
Country Status (4)
Country | Link |
---|---|
US (1) | US8041566B2 (ja) |
EP (2) | EP1687807B1 (ja) |
JP (2) | JP5255769B2 (ja) |
WO (1) | WO2005050621A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015511733A (ja) * | 2012-05-24 | 2015-04-20 | 三菱電機株式会社 | テキストを分類する方法 |
JP2017167247A (ja) * | 2016-03-15 | 2017-09-21 | パナソニックIpマネジメント株式会社 | 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7490092B2 (en) | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
US20050216256A1 (en) * | 2004-03-29 | 2005-09-29 | Mitra Imaging Inc. | Configurable formatting system and method |
US7844464B2 (en) * | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
KR100755677B1 (ko) * | 2005-11-02 | 2007-09-05 | 삼성전자주식회사 | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 |
US8473296B2 (en) | 2005-12-08 | 2013-06-25 | Nuance Communications, Inc. | Method and system for dynamic creation of contexts |
US8301448B2 (en) | 2006-03-29 | 2012-10-30 | Nuance Communications, Inc. | System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy |
FR2902542B1 (fr) * | 2006-06-16 | 2012-12-21 | Gilles Vessiere Consultants | Correcteur semantiques, syntaxique et/ou lexical, procede de correction, ainsi que support d'enregistrement et programme d'ordinateur pour la mise en oeuvre de ce procede |
US8510113B1 (en) | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US20100070263A1 (en) * | 2006-11-30 | 2010-03-18 | National Institute Of Advanced Industrial Science And Technology | Speech data retrieving web site system |
US8165985B2 (en) | 2007-10-12 | 2012-04-24 | Palo Alto Research Center Incorporated | System and method for performing discovery of digital information in a subject area |
US8073682B2 (en) * | 2007-10-12 | 2011-12-06 | Palo Alto Research Center Incorporated | System and method for prospecting digital information |
US8671104B2 (en) | 2007-10-12 | 2014-03-11 | Palo Alto Research Center Incorporated | System and method for providing orientation into digital information |
US8595004B2 (en) * | 2007-12-18 | 2013-11-26 | Nec Corporation | Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program |
US8209616B2 (en) * | 2008-08-28 | 2012-06-26 | Palo Alto Research Center Incorporated | System and method for interfacing a web browser widget with social indexing |
US20100057536A1 (en) * | 2008-08-28 | 2010-03-04 | Palo Alto Research Center Incorporated | System And Method For Providing Community-Based Advertising Term Disambiguation |
US20100057577A1 (en) * | 2008-08-28 | 2010-03-04 | Palo Alto Research Center Incorporated | System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing |
US8010545B2 (en) * | 2008-08-28 | 2011-08-30 | Palo Alto Research Center Incorporated | System and method for providing a topic-directed search |
CA2680304C (en) * | 2008-09-25 | 2017-08-22 | Multimodal Technologies, Inc. | Decoding-time prediction of non-verbalized tokens |
US8549016B2 (en) * | 2008-11-14 | 2013-10-01 | Palo Alto Research Center Incorporated | System and method for providing robust topic identification in social indexes |
US20100145720A1 (en) * | 2008-12-05 | 2010-06-10 | Bruce Reiner | Method of extracting real-time structured data and performing data analysis and decision support in medical reporting |
US9442933B2 (en) | 2008-12-24 | 2016-09-13 | Comcast Interactive Media, Llc | Identification of segments within audio, video, and multimedia items |
US8713016B2 (en) | 2008-12-24 | 2014-04-29 | Comcast Interactive Media, Llc | Method and apparatus for organizing segments of media assets and determining relevance of segments to a query |
US11531668B2 (en) | 2008-12-29 | 2022-12-20 | Comcast Interactive Media, Llc | Merging of multiple data sets |
US8452781B2 (en) * | 2009-01-27 | 2013-05-28 | Palo Alto Research Center Incorporated | System and method for using banded topic relevance and time for article prioritization |
US8239397B2 (en) * | 2009-01-27 | 2012-08-07 | Palo Alto Research Center Incorporated | System and method for managing user attention by detecting hot and cold topics in social indexes |
US8356044B2 (en) * | 2009-01-27 | 2013-01-15 | Palo Alto Research Center Incorporated | System and method for providing default hierarchical training for social indexing |
US8176043B2 (en) | 2009-03-12 | 2012-05-08 | Comcast Interactive Media, Llc | Ranking search results |
US8290273B2 (en) * | 2009-03-27 | 2012-10-16 | Raytheon Bbn Technologies Corp. | Multi-frame videotext recognition |
US20100250614A1 (en) * | 2009-03-31 | 2010-09-30 | Comcast Cable Holdings, Llc | Storing and searching encoded data |
US8533223B2 (en) | 2009-05-12 | 2013-09-10 | Comcast Interactive Media, LLC. | Disambiguation and tagging of entities |
US9892730B2 (en) | 2009-07-01 | 2018-02-13 | Comcast Interactive Media, Llc | Generating topic-specific language models |
US9031944B2 (en) | 2010-04-30 | 2015-05-12 | Palo Alto Research Center Incorporated | System and method for providing multi-core and multi-level topical organization in social indexes |
US20110307252A1 (en) * | 2010-06-15 | 2011-12-15 | Microsoft Corporation | Using Utterance Classification in Telephony and Speech Recognition Applications |
US8606581B1 (en) * | 2010-12-14 | 2013-12-10 | Nuance Communications, Inc. | Multi-pass speech recognition |
US8838449B2 (en) * | 2010-12-23 | 2014-09-16 | Microsoft Corporation | Word-dependent language model |
US9053750B2 (en) | 2011-06-17 | 2015-06-09 | At&T Intellectual Property I, L.P. | Speaker association with a visual representation of spoken content |
RU2500024C2 (ru) * | 2011-12-27 | 2013-11-27 | Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" | Способ автоматизированного определения языка и (или) кодировки текстового документа |
US9652452B2 (en) | 2012-01-06 | 2017-05-16 | Yactraq Online Inc. | Method and system for constructing a language model |
US8374865B1 (en) * | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US9620111B1 (en) * | 2012-05-01 | 2017-04-11 | Amazon Technologies, Inc. | Generation and maintenance of language model |
WO2014018039A1 (en) * | 2012-07-26 | 2014-01-30 | Nuance Communications, Inc. | Text formatter with intuitive customization |
US9135231B1 (en) | 2012-10-04 | 2015-09-15 | Google Inc. | Training punctuation models |
KR20140116642A (ko) * | 2013-03-25 | 2014-10-06 | 삼성전자주식회사 | 음성 인식 기반의 기능 제어 방법 및 장치 |
US9575958B1 (en) * | 2013-05-02 | 2017-02-21 | Athena Ann Smyros | Differentiation testing |
US9728184B2 (en) | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
US20140379334A1 (en) * | 2013-06-20 | 2014-12-25 | Qnx Software Systems Limited | Natural language understanding automatic speech recognition post processing |
US9311298B2 (en) | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US9589565B2 (en) | 2013-06-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
US10438581B2 (en) | 2013-07-31 | 2019-10-08 | Google Llc | Speech recognition using neural networks |
US10515631B2 (en) * | 2013-12-17 | 2019-12-24 | Koninklijke Philips N.V. | System and method for assessing the cognitive style of a person |
US9529794B2 (en) | 2014-03-27 | 2016-12-27 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
US9614724B2 (en) | 2014-04-21 | 2017-04-04 | Microsoft Technology Licensing, Llc | Session-based device configuration |
US20150325236A1 (en) * | 2014-05-08 | 2015-11-12 | Microsoft Corporation | Context specific language model scale factors |
US10111099B2 (en) | 2014-05-12 | 2018-10-23 | Microsoft Technology Licensing, Llc | Distributing content in managed wireless distribution networks |
US9874914B2 (en) | 2014-05-19 | 2018-01-23 | Microsoft Technology Licensing, Llc | Power management contracts for accessory devices |
US9717006B2 (en) | 2014-06-23 | 2017-07-25 | Microsoft Technology Licensing, Llc | Device quarantine in a wireless network |
WO2015199653A1 (en) * | 2014-06-24 | 2015-12-30 | Nuance Communications, Inc. | Methods and apparatus for joint stochastic and deterministic dictation formatting |
US10115394B2 (en) * | 2014-07-08 | 2018-10-30 | Mitsubishi Electric Corporation | Apparatus and method for decoding to recognize speech using a third speech recognizer based on first and second recognizer results |
US20160098645A1 (en) * | 2014-10-02 | 2016-04-07 | Microsoft Corporation | High-precision limited supervision relationship extractor |
US9502032B2 (en) | 2014-10-08 | 2016-11-22 | Google Inc. | Dynamically biasing language models |
US9858923B2 (en) | 2015-09-24 | 2018-01-02 | Intel Corporation | Dynamic adaptation of language models and semantic tracking for automatic speech recognition |
US20170229124A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Re-recognizing speech with external data sources |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US11010601B2 (en) | 2017-02-14 | 2021-05-18 | Microsoft Technology Licensing, Llc | Intelligent assistant device communicating non-verbal cues |
US10467509B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
US11100384B2 (en) | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
US10565986B2 (en) * | 2017-07-20 | 2020-02-18 | Intuit Inc. | Extracting domain-specific actions and entities in natural language commands |
US10672380B2 (en) | 2017-12-27 | 2020-06-02 | Intel IP Corporation | Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system |
CN109979435B (zh) * | 2017-12-28 | 2021-10-22 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
WO2019140027A1 (en) * | 2018-01-10 | 2019-07-18 | Takeda Pharmaceutical Company Limited | Method and system for managing clinical trial participation |
US11514914B2 (en) * | 2019-02-08 | 2022-11-29 | Jpmorgan Chase Bank, N.A. | Systems and methods for an intelligent virtual assistant for meetings |
US11257484B2 (en) * | 2019-08-21 | 2022-02-22 | Microsoft Technology Licensing, Llc | Data-driven and rule-based speech recognition output enhancement |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61221898A (ja) * | 1985-03-27 | 1986-10-02 | 株式会社東芝 | 金銭登録機 |
JPH03104295U (ja) * | 1990-02-07 | 1991-10-29 | ||
JPH0926963A (ja) * | 1995-06-07 | 1997-01-28 | At & T Ipm Corp | テキスト分類器をトレーニングする方法及び装置 |
JP2001166790A (ja) * | 1999-12-09 | 2001-06-22 | Nippon Hoso Kyokai <Nhk> | 書き起こしテキスト自動生成装置、音声認識装置および記録媒体 |
JP2003123149A (ja) * | 2001-10-16 | 2003-04-25 | East Japan Railway Co | 簡易式カード決済システム、ならびにそのプログラム、および記録媒体 |
JP2004199680A (ja) * | 2002-12-16 | 2004-07-15 | Xerox Corp | トピックベースのインタラクティブなテキストの要約を表示するシステムと方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5623679A (en) * | 1993-11-19 | 1997-04-22 | Waverley Holdings, Inc. | System and method for creating and manipulating notes each containing multiple sub-notes, and linking the sub-notes to portions of data objects |
US5623681A (en) * | 1993-11-19 | 1997-04-22 | Waverley Holdings, Inc. | Method and apparatus for synchronizing, displaying and manipulating text and image documents |
US6279017B1 (en) * | 1996-08-07 | 2001-08-21 | Randall C. Walker | Method and apparatus for displaying text based upon attributes found within the text |
US6052657A (en) * | 1997-09-09 | 2000-04-18 | Dragon Systems, Inc. | Text segmentation and identification of topic using language models |
US6104989A (en) | 1998-07-29 | 2000-08-15 | International Business Machines Corporation | Real time detection of topical changes and topic identification via likelihood based methods |
US6188976B1 (en) | 1998-10-23 | 2001-02-13 | International Business Machines Corporation | Apparatus and method for building domain-specific language models |
US6253177B1 (en) * | 1999-03-08 | 2001-06-26 | International Business Machines Corp. | Method and system for automatically determining whether to update a language model based upon user amendments to dictated text |
US6526380B1 (en) * | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US6327561B1 (en) * | 1999-07-07 | 2001-12-04 | International Business Machines Corp. | Customized tokenization of domain specific text via rules corresponding to a speech recognition vocabulary |
US6529902B1 (en) * | 1999-11-08 | 2003-03-04 | International Business Machines Corporation | Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling |
US20020087315A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented multi-scanning language method and system |
JP3782943B2 (ja) * | 2001-02-20 | 2006-06-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 |
US20030018668A1 (en) * | 2001-07-20 | 2003-01-23 | International Business Machines Corporation | Enhanced transcoding of structured documents through use of annotation techniques |
US20040189713A1 (en) * | 2001-10-31 | 2004-09-30 | Metacyber.Net | Computer-based user interface for a memory-resident rapid comprehension document for original source information |
-
2004
- 2004-11-12 US US10/595,830 patent/US8041566B2/en not_active Expired - Fee Related
- 2004-11-12 JP JP2006540704A patent/JP5255769B2/ja not_active Expired - Fee Related
- 2004-11-12 WO PCT/IB2004/052403 patent/WO2005050621A2/en active Application Filing
- 2004-11-12 EP EP04799133.6A patent/EP1687807B1/en active Active
- 2004-11-12 EP EP12173403.2A patent/EP2506252B1/en active Active
-
2011
- 2011-05-11 JP JP2011106732A patent/JP5330450B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61221898A (ja) * | 1985-03-27 | 1986-10-02 | 株式会社東芝 | 金銭登録機 |
JPH03104295U (ja) * | 1990-02-07 | 1991-10-29 | ||
JPH0926963A (ja) * | 1995-06-07 | 1997-01-28 | At & T Ipm Corp | テキスト分類器をトレーニングする方法及び装置 |
JP2001166790A (ja) * | 1999-12-09 | 2001-06-22 | Nippon Hoso Kyokai <Nhk> | 書き起こしテキスト自動生成装置、音声認識装置および記録媒体 |
JP2003123149A (ja) * | 2001-10-16 | 2003-04-25 | East Japan Railway Co | 簡易式カード決済システム、ならびにそのプログラム、および記録媒体 |
JP2004199680A (ja) * | 2002-12-16 | 2004-07-15 | Xerox Corp | トピックベースのインタラクティブなテキストの要約を表示するシステムと方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015511733A (ja) * | 2012-05-24 | 2015-04-20 | 三菱電機株式会社 | テキストを分類する方法 |
JP2017167247A (ja) * | 2016-03-15 | 2017-09-21 | パナソニックIpマネジメント株式会社 | 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム |
US10535337B2 (en) | 2016-03-15 | 2020-01-14 | Panasonic Intellectual Property Management Co., Ltd. | Method for correcting false recognition contained in recognition result of speech of user |
Also Published As
Publication number | Publication date |
---|---|
EP1687807B1 (en) | 2016-03-16 |
EP1687807A2 (en) | 2006-08-09 |
JP2007512608A (ja) | 2007-05-17 |
US8041566B2 (en) | 2011-10-18 |
WO2005050621A2 (en) | 2005-06-02 |
WO2005050621A3 (en) | 2005-10-27 |
JP5255769B2 (ja) | 2013-08-07 |
EP2506252A2 (en) | 2012-10-03 |
JP5330450B2 (ja) | 2013-10-30 |
EP2506252A3 (en) | 2012-11-28 |
EP2506252B1 (en) | 2019-06-05 |
US20070271086A1 (en) | 2007-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5330450B2 (ja) | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
JP6550068B2 (ja) | 音声認識における発音予測 | |
US7424427B2 (en) | Systems and methods for classifying audio into broad phoneme classes | |
CN112397091B (zh) | 中文语音综合评分及诊断系统和方法 | |
US7315811B2 (en) | System and method for accented modification of a language model | |
US6535849B1 (en) | Method and system for generating semi-literal transcripts for speech recognition systems | |
US7584103B2 (en) | Automated extraction of semantic content and generation of a structured document from speech | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
JPH0922297A (ja) | 音声‐テキスト変換のための方法および装置 | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
US11935523B2 (en) | Detection of correctness of pronunciation | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
JP6230606B2 (ja) | 精度スコアを使用した音声認識性能を予測するための方法およびシステム | |
CN109300468B (zh) | 一种语音标注方法及装置 | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
US20020184019A1 (en) | Method of using empirical substitution data in speech recognition | |
Wutiwiwatchai et al. | Phonetically Distributed Continuous Speech Corpus for Thai Language. | |
Azim et al. | Using Character-Level Sequence-to-Sequence Model for Word Level Text Generation to Enhance Arabic Speech Recognition | |
Miyazaki et al. | Connectionist temporal classification-based sound event encoder for converting sound events into onomatopoeic representations | |
CN116434779A (zh) | 语言学习系统 | |
CN116434780A (zh) | 具备多读音纠错功能的语言学习系统 | |
JP2003345372A (ja) | 音声合成装置及び音声合成方法 | |
Arvidsson et al. | Automatic Speech Recognition for Swedish language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120807 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20121107 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20121112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130725 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |