JP6844472B2 - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP6844472B2 JP6844472B2 JP2017161373A JP2017161373A JP6844472B2 JP 6844472 B2 JP6844472 B2 JP 6844472B2 JP 2017161373 A JP2017161373 A JP 2017161373A JP 2017161373 A JP2017161373 A JP 2017161373A JP 6844472 B2 JP6844472 B2 JP 6844472B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- activation word
- activation
- unit
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 28
- 230000004913 activation Effects 0.000 claims description 180
- 238000000034 method Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
- Navigation (AREA)
Description
図1は、第1の実施の形態に係る情報処理装置1の構成を示すブロック図である。情報処理装置1は、例えば、スマートフォン、携帯電話、タブレット端末、ノートパソコン、ウェアラブル端末などの携帯機器に含まれてもよいし、デスクトップパソコンなどの据え置き型の電子機器に含まれてもよいし、車両に搭載されたカーナビゲーション装置などの車載装置に含まれてもよい。情報処理装置1は、受付部10と、記憶部12と、判定部14と、追加部16と、提示部18と、音声認識部30と、比較部32と、起動部34とを備える。
第2の実施の形態では、音声認識の精度に関する条件が第1の実施の形態と異なる。以下では、第1の実施の形態との相違点を中心に説明する。
第3の実施の形態では、複数のユーザから複数の起動ワードの登録入力を受け付けることが、第1の実施の形態と異なる。以下では、第1の実施の形態との相違点を中心に説明する。
第1および第3の実施の形態を組み合わせ、音声認識の精度に関する条件が、第1条件、および、既に受け付けた起動ワードと新たに受け付けた起動ワードとの発音の類似度が所定値未満であること(以下、第3条件と呼ぶ)であってもよい。
第2および第3の実施の形態を組み合わせ、音声認識の精度に関する条件が、第2条件および第3条件であってもよい。
第1、第2および第3の実施の形態を組み合わせ、音声認識の精度に関する条件が、第1条件、第2条件および第3条件であってもよい。
組合せによって生じる新たな実施の形態は、組み合わされる実施の形態それぞれの効果をあわせもつ。
Claims (4)
- 音声認識により所定の機能を起動させる起動ワードを登録するための入力を、ユーザから受け付ける受付部と、
前記受付部で受け付けた前記起動ワードが、音声認識の精度に関する条件を満たしているか判定する判定部と、
前記判定部により前記条件が満たされていないと判定された場合、前記条件を満たすように、前記起動ワードに所定の追加ワードを追加する追加部と、
前記追加部により前記追加ワードが追加された起動ワードを提示する提示部と、
を備えることを特徴とする情報処理装置。 - 前記条件は、前記起動ワードの音数が所定数以上であることであり、
前記追加部は、前記判定部により前記起動ワードの音数が所定数未満であると判定された場合、前記起動ワードの音数が所定数以上になるように、前記起動ワードに所定の追加ワードを追加する、
ことを特徴とする請求項1に記載の情報処理装置。 - 音声認識により所定の機能を起動させる起動ワードを登録するための入力を、ユーザから受け付ける受付部と、
前記受付部で受け付けた前記起動ワードが、音声認識の精度に関する条件を満たしているか判定する判定部と、
を備え、
前記条件は、前記起動ワードに含まれる誤認識されやすい所定の音の数が所定数未満であることであり、
前記判定部により前記起動ワードに含まれる前記所定の音の数が所定数以上であると判定された場合に、ユーザへの起動ワードの再設定指示を提示する提示部をさらに備えることを特徴とする情報処理装置。 - 前記条件は、前記受付部がユーザから起動ワードの登録入力を既に受け付けた状態で、他のユーザから起動ワードの登録入力を新たに受け付けた場合に、既に受け付けた起動ワードと新たに受け付けた起動ワードとの発音の類似度が所定値未満であることであり、
前記追加部は、前記判定部により、前記発音の類似度が所定値以上であると判定された場合に、新たに受け付けた起動ワードに所定の追加ワードを追加する、
ことを特徴とする請求項1に記載の情報処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017161373A JP6844472B2 (ja) | 2017-08-24 | 2017-08-24 | 情報処理装置 |
CN201810954355.2A CN109427329B (zh) | 2017-08-24 | 2018-08-21 | 信息处理装置、车载装置和存储介质 |
US16/109,113 US10916246B2 (en) | 2017-08-24 | 2018-08-22 | Information processing device, in-vehicle device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017161373A JP6844472B2 (ja) | 2017-08-24 | 2017-08-24 | 情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019040033A JP2019040033A (ja) | 2019-03-14 |
JP6844472B2 true JP6844472B2 (ja) | 2021-03-17 |
Family
ID=65437440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017161373A Active JP6844472B2 (ja) | 2017-08-24 | 2017-08-24 | 情報処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10916246B2 (ja) |
JP (1) | JP6844472B2 (ja) |
CN (1) | CN109427329B (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI684912B (zh) * | 2019-01-08 | 2020-02-11 | 瑞昱半導體股份有限公司 | 語音喚醒裝置及方法 |
CN110136707B (zh) * | 2019-04-22 | 2021-03-02 | 云知声智能科技股份有限公司 | 一种用于进行多设备自主决策的人机交互系统 |
KR102246936B1 (ko) * | 2019-06-20 | 2021-04-29 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN110364151B (zh) * | 2019-07-15 | 2024-01-30 | 华为技术有限公司 | 一种语音唤醒的方法和电子设备 |
CN110727821A (zh) * | 2019-10-12 | 2020-01-24 | 深圳海翼智新科技有限公司 | 防止设备被误唤醒的方法、装置、系统和计算机存储介质 |
JP7434016B2 (ja) | 2020-03-26 | 2024-02-20 | 本田技研工業株式会社 | 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム |
JP7314898B2 (ja) * | 2020-10-09 | 2023-07-26 | トヨタ自動車株式会社 | エージェント装置、エージェント方法及びエージェントプログラム |
KR20220099003A (ko) * | 2021-01-05 | 2022-07-12 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3680380B2 (ja) * | 1995-10-26 | 2005-08-10 | ソニー株式会社 | 音声符号化方法及び装置 |
JPH11231895A (ja) * | 1998-02-17 | 1999-08-27 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びその装置 |
US9536528B2 (en) * | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
US9275637B1 (en) * | 2012-11-06 | 2016-03-01 | Amazon Technologies, Inc. | Wake word evaluation |
US9548047B2 (en) * | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9373321B2 (en) * | 2013-12-02 | 2016-06-21 | Cypress Semiconductor Corporation | Generation of wake-up words |
CN104219388B (zh) * | 2014-08-28 | 2017-09-12 | 小米科技有限责任公司 | 语音控制方法和装置 |
TWI525532B (zh) * | 2015-03-30 | 2016-03-11 | Yu-Wei Chen | Set the name of the person to wake up the name for voice manipulation |
CN104795068B (zh) * | 2015-04-28 | 2018-08-17 | 深圳市锐曼智能装备有限公司 | 机器人的唤醒控制方法及其控制系统 |
JP2016218852A (ja) | 2015-05-22 | 2016-12-22 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
US9691378B1 (en) * | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
EP3472831B8 (en) * | 2016-06-15 | 2020-07-01 | Cerence Operating Company | Techniques for wake-up word recognition and related systems and methods |
-
2017
- 2017-08-24 JP JP2017161373A patent/JP6844472B2/ja active Active
-
2018
- 2018-08-21 CN CN201810954355.2A patent/CN109427329B/zh active Active
- 2018-08-22 US US16/109,113 patent/US10916246B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN109427329A (zh) | 2019-03-05 |
JP2019040033A (ja) | 2019-03-14 |
US20190066678A1 (en) | 2019-02-28 |
CN109427329B (zh) | 2023-04-28 |
US10916246B2 (en) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6844472B2 (ja) | 情報処理装置 | |
JP6570651B2 (ja) | 音声対話装置および音声対話方法 | |
JP4468264B2 (ja) | 多言語による名称の音声認識のための方法とシステム | |
WO2014208231A1 (ja) | ローカルな音声認識を行なう音声認識クライアント装置 | |
US20050273337A1 (en) | Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition | |
US8401854B2 (en) | Speech recognition on large lists using fragments | |
US10811005B2 (en) | Adapting voice input processing based on voice input characteristics | |
KR102585231B1 (ko) | 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 | |
WO2016006038A1 (ja) | 音声認識システム及び音声認識方法 | |
US11295732B2 (en) | Dynamic interpolation for hybrid language models | |
JP2018116206A (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
EP3855305A1 (en) | Agent system, agent server, and agent program | |
JP2019203998A (ja) | 会話装置、ロボット、会話装置制御方法及びプログラム | |
JP6805431B2 (ja) | 音声認識装置 | |
JP2021117296A (ja) | エージェントシステム、端末装置およびエージェントプログラム | |
WO2024009465A1 (ja) | 音声認識装置、プログラム、音声認識方法、及び音声認識システム | |
KR100358992B1 (ko) | 유사 음소에 기반한 화자 종속형 음성 인식 장치 및 그 방법 | |
JP2019200239A (ja) | 言語設定装置 | |
CN110516238B (zh) | 语音翻译方法、装置、终端及计算机存储介质 | |
JP2019211966A (ja) | 制御装置、対話装置、制御方法、およびプログラム | |
EP1426924A1 (en) | Speaker recognition for rejecting background speakers | |
JP6912985B2 (ja) | 音声認識システム及びコンピュータプログラム | |
JP5088314B2 (ja) | 音声応答装置、及びプログラム | |
JP2020034832A (ja) | 辞書生成装置、音声認識システムおよび辞書生成方法 | |
JP6258002B2 (ja) | 音声認識システムおよび音声認識システムの制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200923 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210208 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6844472 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |