JP6272496B2 - 単語のシーケンスを含む音声を認識するための方法及びシステム - Google Patents
単語のシーケンスを含む音声を認識するための方法及びシステム Download PDFInfo
- Publication number
- JP6272496B2 JP6272496B2 JP2016554899A JP2016554899A JP6272496B2 JP 6272496 B2 JP6272496 B2 JP 6272496B2 JP 2016554899 A JP2016554899 A JP 2016554899A JP 2016554899 A JP2016554899 A JP 2016554899A JP 6272496 B2 JP6272496 B2 JP 6272496B2
- Authority
- JP
- Japan
- Prior art keywords
- constraint
- speech
- gesture
- word
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 63
- 230000006870 function Effects 0.000 claims description 31
- 238000012937 correction Methods 0.000 claims description 28
- 238000013507 mapping Methods 0.000 claims description 28
- 230000004044 response Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims 2
- 230000037431 insertion Effects 0.000 claims 2
- 238000009877 rendering Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 14
- 230000000007 visual effect Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 8
- 230000003993 interaction Effects 0.000 description 6
- 230000001149 cognitive effect Effects 0.000 description 5
- 238000012800 visualization Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/196—Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
- G06V30/1983—Syntactic or structural pattern recognition, e.g. symbolic string recognition
- G06V30/1985—Syntactic analysis, e.g. using a grammatical approach
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Description
ジェスチャーの形状、及び音声の解釈の組を示す表示デバイスに対するジェスチャーのロケーションを求めることと、
ジェスチャーの形状、及びジェスチャーの形状の組と単語シーケンス制約のタイプの組との間のマッピングに基づいて単語シーケンス制約のタイプを確定することと、
ジェスチャーのロケーションに基づいて単語シーケンス制約の値を確定することと、
単語シーケンス制約を用いて音声を認識することと、
を含む。本方法のステップはプロセッサによって実行される。
表示デバイスであって、音声の解釈の組を表示し、表示に応答して、表示デバイスに対するジェスチャーを受信するための表示デバイスと、
ジェスチャーの形状、及び表示デバイスにおける解釈の組からの要素のロケーションに対するジェスチャーのロケーションに基づいて単語シーケンス制約のタイプ及び値を確定し、単語シーケンス制約を用いて音声を認識するための少なくとも1つのプロセッサと、
を備える、システムを開示する。
図7Aは、本発明の1つの実施形態による、単語シーケンス制約の下で音声710を解釈するための例示的な方法の概略図を示す。この例では、単語シーケンス制約は、単語数に対する制約714、すなわち、音声が6つの単語を有するという制約を含む。特に、制約714は、解釈の組711全体のスコア712を更新し、解釈の更新されたスコア716を有する更新された組715を生成するのに用いられる。図7Aの例からわかるように、解釈の組全体のスコア716が更新される。
また、幾つかの実施形態は、システムがユーザーに課す認知的負荷を低くするためには、単語シーケンス制約のエントリの方法が、制約の選択に必要なユーザーのアクションを最小限にするべきであるという認識に基づいている。単語シーケンス制約は、様々な値を有することができるが、様々なタイプも有することができる。例えば、単語シーケンス制約のタイプは、単語の選択又は拒否、単語のシーケンスの選択、タイムスロットの選択、シーケンス内の正しい単語のトレース、単語又は単語の順序の置換等を含むことができる。したがって、ユーザーの注意を運転等の主要な作業から逸らすことを最小限にしながら、制約のタイプ及び値の双方の選択に適合されたインターフェースを提供することが望ましい。
Claims (18)
- 単語のシーケンスを含む音声を認識するための方法であって、
ジェスチャーの形状、及び前記音声の解釈の組を示す表示デバイスに対する前記ジェスチャーのロケーションを求めることと、
前記ジェスチャーの前記形状、及びジェスチャーの形状の組と単語シーケンス制約のタイプの組との間のマッピングに基づいて前記単語シーケンス制約のタイプを確定することと、
前記ジェスチャーの前記ロケーションに基づいて前記単語シーケンス制約の値を確定することと、
前記単語シーケンス制約を用いて前記音声を認識することと、
音響モデル及び言語モデルを用いて前記音声の前記解釈の組を生成することと、
解釈ごとに、解釈が前記単語のシーケンスを表す正確度を表すスコアを求めて、スコアの組を生成することと、
前記音声の前記解釈の組を前記表示デバイス上にレンダリングすることと、
前記単語シーケンス制約の前記タイプ及び前記値に基づいて前記音声を認識するための制約を確定することと、
前記制約との各解釈の整合性に基づいて前記スコアの組を更新することと、
を含み、
前記方法のステップはプロセッサによって実行される、
方法。 - 前記単語シーケンス制約との整合の度合いを示す制約因子を求めることと、
前記制約因子に基づいて、スコアリング関数を求めることと、
前記スコアリング関数を用いて前記スコアの組を更新することと、
を更に含む、請求項1に記載の方法。 - 前記単語シーケンス制約の前記タイプに基づいて前記制約因子を求めることを更に含む、
請求項2に記載の方法。 - 前記スコアリング関数S’(W|X)は、
請求項3に記載の方法。 - 前記ジェスチャーは、水平方向の選択を含み、
前記制約因子は、単語シーケンスとの整合の度合いを示す数を出力する、
請求項4に記載の方法。 - 前記ジェスチャーは、正しい単語シーケンスのトレースを含み、
前記制約因子は、前記トレースとの整合の度合いを示す数を出力する、
請求項4に記載の方法。 - 前記マッピングは、掴むジェスチャーに対応する選択制約を含む、
請求項1に記載の方法。 - 前記マッピングは、垂直方向のジェスチャーに対応するタイムスロット制約を含む、
請求項1に記載の方法。 - 前記マッピングは、水平方向のジェスチャーに対応するシーケンス制約を含む、
請求項1に記載の方法。 - 前記マッピングは、フリックジェスチャーに対応する拒否制約を含む、
請求項1に記載の方法。 - 前記マッピングは、丸で囲むジェスチャーに対応する同義語制約を含む、
請求項1に記載の方法。 - 前記マッピングは、経路トレースジェスチャーに対応するトレース制約を含む、
請求項1に記載の方法。 - 前記マッピングは、ハットジェスチャーに対応する挿入制約を含む、
請求項1に記載の方法。 - 前記マッピングは、トレース及びドラッグジェスチャーに対応する並べ替え制約を含む、
請求項1に記載の方法。 - 単語のシーケンスを含む音声を認識するためのシステムであって、
表示デバイスであって、前記音声の解釈の組を表示し、前記表示に応答して、前記表示デバイスに対するジェスチャーを受信するための表示デバイスと、
前記ジェスチャーの形状、及び前記表示デバイスにおける前記解釈の組からの要素のロケーションに対する前記ジェスチャーのロケーションに基づいて単語シーケンス制約のタイプ及び値を確定し、前記単語シーケンス制約を用いて前記音声を認識するための少なくとも1つのプロセッサと、
を備え、
少なくとも1つのプロセッサが、音声認識モジュール及び誤り訂正モジュールを実装するプロセッサを備え、
前記音声認識モジュールは、音響モデル及び言語モデルを用いて音声入力の前記解釈の組を生成し、解釈ごとに、解釈が前記音声を表す正確度を表すスコアを求め、
前記誤り訂正モジュールは、前記単語シーケンス制約の前記タイプ及び前記値を用いて、前記音声を認識するための制約を確定し、前記制約との前記解釈の整合性に基づいて各解釈の前記スコアを更新する、
システム。 - 前記音声を認識する前記システムは、車両のインストゥルメンタルパネルに埋め込まれる、
請求項15に記載のシステム。 - 少なくとも1つのプロセッサは、前記ジェスチャーの前記タイプ、及びジェスチャーのタイプの組と単語シーケンス制約のタイプの組との間のマッピングに基づいて、前記単語シーケンス制約の前記タイプを確定する、
請求項15に記載のシステム。 - 前記マッピングは、掴むジェスチャーに対応する選択制約を含み、
前記マッピングは、垂直方向のジェスチャーに対応するタイムスロット制約を含み、
前記マッピングは、水平方向のジェスチャーに対応するシーケンス制約を含み、
前記マッピングは、フリックジェスチャーに対応する拒否制約を含み、
前記マッピングは、丸で囲むジェスチャーに対応する同義語制約を含み、
前記マッピングは、経路トレースジェスチャーに対応するトレース制約を含み、
前記マッピングは、ハットジェスチャーに対応する挿入制約を含み、
前記マッピングは、トレース及びドラッグジェスチャーに対応する並べ替え制約を含む、
請求項17に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/337,472 US9196246B2 (en) | 2013-06-14 | 2014-07-22 | Determining word sequence constraints for low cognitive speech recognition |
US14/337,472 | 2014-07-22 | ||
PCT/JP2015/071426 WO2016013685A1 (en) | 2014-07-22 | 2015-07-22 | Method and system for recognizing speech including sequence of words |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017511899A JP2017511899A (ja) | 2017-04-27 |
JP6272496B2 true JP6272496B2 (ja) | 2018-01-31 |
Family
ID=54105951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016554899A Expired - Fee Related JP6272496B2 (ja) | 2014-07-22 | 2015-07-22 | 単語のシーケンスを含む音声を認識するための方法及びシステム |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP6272496B2 (ja) |
CN (1) | CN106537489B (ja) |
DE (1) | DE112015003357B4 (ja) |
WO (1) | WO2016013685A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108463848B (zh) | 2016-03-23 | 2019-12-20 | 谷歌有限责任公司 | 用于多声道语音识别的自适应音频增强 |
US10706210B2 (en) | 2016-08-31 | 2020-07-07 | Nuance Communications, Inc. | User interface for dictation application employing automatic speech recognition |
CN108871370A (zh) * | 2018-07-03 | 2018-11-23 | 北京百度网讯科技有限公司 | 导航方法、装置、设备和介质 |
JP7230205B2 (ja) * | 2018-12-03 | 2023-02-28 | グーグル エルエルシー | 音声入力処理 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5960447A (en) | 1995-11-13 | 1999-09-28 | Holt; Douglas | Word tagging and editing system for speech recognition |
US6064959A (en) | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US5970460A (en) | 1997-12-05 | 1999-10-19 | Lernout & Hauspie Speech Products N.V. | Speech recognition and editing system |
US7881936B2 (en) * | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US7444286B2 (en) | 2001-09-05 | 2008-10-28 | Roth Daniel L | Speech recognition using re-utterance recognition |
JP4604178B2 (ja) * | 2004-11-22 | 2010-12-22 | 独立行政法人産業技術総合研究所 | 音声認識装置及び方法ならびにプログラム |
US20060293889A1 (en) | 2005-06-27 | 2006-12-28 | Nokia Corporation | Error correction for speech recognition systems |
JP5430382B2 (ja) * | 2009-12-16 | 2014-02-26 | キヤノン株式会社 | 入力装置及び方法 |
US20120226498A1 (en) * | 2011-03-02 | 2012-09-06 | Microsoft Corporation | Motion-based voice activity detection |
JP5621681B2 (ja) * | 2011-03-29 | 2014-11-12 | 株式会社デンソー | 車載用情報提示装置 |
US9092394B2 (en) * | 2012-06-15 | 2015-07-28 | Honda Motor Co., Ltd. | Depth based context identification |
JPWO2014041607A1 (ja) * | 2012-09-11 | 2016-08-12 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US9182826B2 (en) * | 2012-11-21 | 2015-11-10 | Intel Corporation | Gesture-augmented speech recognition |
JP2014149612A (ja) * | 2013-01-31 | 2014-08-21 | Nippon Hoso Kyokai <Nhk> | 音声認識誤り修正装置およびそのプログラム |
CN203366349U (zh) * | 2013-07-19 | 2013-12-25 | 中国农业银行股份有限公司镇江分行 | 银行客户的身份识别系统 |
CN103645876B (zh) * | 2013-12-06 | 2017-01-18 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
-
2015
- 2015-07-22 WO PCT/JP2015/071426 patent/WO2016013685A1/en active Application Filing
- 2015-07-22 CN CN201580040168.8A patent/CN106537489B/zh not_active Expired - Fee Related
- 2015-07-22 DE DE112015003357.2T patent/DE112015003357B4/de not_active Expired - Fee Related
- 2015-07-22 JP JP2016554899A patent/JP6272496B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN106537489B (zh) | 2020-01-17 |
JP2017511899A (ja) | 2017-04-27 |
CN106537489A (zh) | 2017-03-22 |
DE112015003357B4 (de) | 2021-01-14 |
DE112015003357T5 (de) | 2017-04-06 |
WO2016013685A1 (en) | 2016-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6203288B2 (ja) | 音声を認識するシステムおよび方法 | |
US9196246B2 (en) | Determining word sequence constraints for low cognitive speech recognition | |
JP6743300B2 (ja) | ニューラルネットワークを用いてハイブリッド音声認識結果をランク付けするためのシステム及び方法 | |
US10551915B2 (en) | Gaze based text input systems and methods | |
KR100998566B1 (ko) | 음성인식을 이용한 언어 번역 방법 및 장치 | |
EP4026119A1 (en) | Transcription revision interface for speech recognition system | |
JP6272496B2 (ja) | 単語のシーケンスを含む音声を認識するための方法及びシステム | |
JP2011503638A (ja) | カーナビゲーションシステムのための自由会話命令分類の改良 | |
EP3152754B1 (en) | Modification of visual content to facilitate improved speech recognition | |
KR101819457B1 (ko) | 음성 인식 장치 및 시스템 | |
JP4634156B2 (ja) | 音声対話方法および音声対話装置 | |
KR20210108557A (ko) | 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템 | |
JPWO2020105349A1 (ja) | 情報処理装置および情報処理方法 | |
KR20140086302A (ko) | 음성과 제스처를 이용한 명령어 인식 장치 및 그 방법 | |
KR20200140171A (ko) | 전자 장치 및 이의 제어 방법 | |
KR101399777B1 (ko) | 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템 | |
JP4702081B2 (ja) | 文字入力装置 | |
US11087156B2 (en) | Method and device for displaying handwriting-based entry | |
CN113990351A (zh) | 纠音方法、纠音装置及非瞬时性存储介质 | |
JP3762191B2 (ja) | 情報入力方法、情報入力装置及び記憶媒体 | |
KR102605774B1 (ko) | 스마트 글래스 및 이를 포함하는 음성 인식 시스템 | |
JP2015099335A (ja) | 情報処理装置およびその方法 | |
JP2006139789A (ja) | 情報入力方法、情報入力装置及び記憶媒体 | |
JPH09258786A (ja) | 調整機能を有する音声認識装置 | |
JP4565768B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6272496 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |