JP7300435B2 - 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体 - Google Patents
音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP7300435B2 JP7300435B2 JP2020185935A JP2020185935A JP7300435B2 JP 7300435 B2 JP7300435 B2 JP 7300435B2 JP 2020185935 A JP2020185935 A JP 2020185935A JP 2020185935 A JP2020185935 A JP 2020185935A JP 7300435 B2 JP7300435 B2 JP 7300435B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- labeling
- intent
- textual
- module configured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims description 86
- 238000000034 method Methods 0.000 title claims description 47
- 238000002372 labelling Methods 0.000 claims description 58
- 230000005236 sound signal Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 20
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000003062 neural network model Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000009795 derivation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 206010024796 Logorrhoea Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Description
本開示の第5の態様では、コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、第1の態様の実施例に記載の方法が実行される。
本開示の実施例によれば、コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記音声インタラクションするための方法が実行される。
Claims (9)
- 音声インタラクションするための方法であって、
受信された音声信号に対応するテキスト情報を決定するステップと、
前記テキスト情報内の要素にラベル付けすることにより、前記テキスト情報のラベル付け情報を取得するステップと、
前記ラベル付け情報に基づいて前記テキスト情報の第1の意図情報を決定するステップと、
前記第1の意図情報および前記ラベル付け情報に基づいて、前記テキスト情報の語義を決定するステップと、を含み、
前記テキスト情報の語義を決定するステップは、
前記第1の意図情報および前記ラベル付け情報に基づいて、前記テキスト情報の第1の分野情報および第1のスロット情報を決定するステップと、
前記第1の意図情報、前記第1の分野情報および前記第1のスロット情報に基づいて、前記テキスト情報の第1の語義情報を生成するステップと、
少なくとも前記第1の語義情報に基づいて、前記テキスト情報の語義を決定するステップと、を含む、
ことを特徴とする音声インタラクションするための方法。 - 前記テキスト情報内の要素にラベル付けするステップは、
時間、数字、人物名、および地名のうちの少なくとも1つを含む、前記要素内のエンティティ要素にラベル付けするステップと、
所定の知識ベースに基づいて前記要素の分野をラベル付けするステップと、
コンテキスト自由文法に基づいて、前記要素内の置き換え可能な要素にラベル付けするステップと、の少なくとも1つを含む、
ことを特徴とする請求項1に記載の方法。 - 前記テキスト情報の第1の意図情報を決定するステップは、
前記ラベル付け情報と意図情報とのマッピング関係に基づいて、前記ラベル付け情報に対応する複数の候補意図情報を決定するステップと、
前記複数の候補意図情報から前記第1の意図情報を選択するステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 音声インタラクションするための装置であって、
受信された音声信号に対応するテキスト情報を決定するように構成されるテキスト情報決定モジュールと、
前記テキスト情報内の要素にラベル付けすることにより、前記テキスト情報のラベル付け情報を取得するように構成されるラベル付けモジュールと、
前記ラベル付け情報に基づいて前記テキスト情報の第1の意図情報を決定するように構成される第1の意図決定モジュールと、
前記第1の意図情報および前記ラベル付け情報に基づいて、前記テキスト情報の語義を決定するように構成される語義決定モジュールと、を含み、
前記語義決定モジュールは、
前記第1の意図情報および前記ラベル付け情報に基づいて、前記テキスト情報の第1の分野情報および第1のスロット情報を決定するように構成される分野スロット決定モジュールと、
前記第1の意図情報、前記第1の分野情報および前記第1のスロット情報に基づいて、前記テキスト情報の第1の語義情報を生成するように構成される第1の語義情報生成モジュールと、
少なくとも前記第1の語義情報に基づいて、前記テキスト情報の語義を決定するように構成される語義生成モジュールと、を含む、
ことを特徴とする音声インタラクションするための装置。 - 前記ラベル付けモジュールは、
時間、数字、人物名、および地名のうちの少なくとも1つを含む、前記要素内のエンティティ要素にラベル付けするように構成されるエンティティラベル付けモジュールと、
所定の知識ベースに基づいて前記要素の分野をラベル付けするように構成される分野ラベル付けモジュールと、
コンテキスト自由文法に基づいて、前記要素内の置き換え可能な要素にラベル付けするように構成される置き換え可能な要素レベル付けモジュールと、の少なくとも1つを含む、
ことを特徴とする請求項4に記載の装置。 - 前記第1の意図決定モジュールは、
前記ラベル付け情報と意図情報とのマッピング関係に基づいて、前記ラベル付け情報に対応する複数の候補意図情報を決定するように構成される候補意図決定モジュールと、
前記複数の候補意図情報から前記第1の意図情報を選択するように構成される第1の意図選択モジュールと、を含む、
ことを特徴とする請求項4に記載の装置。 - 一つまたは複数のプロセッサと、
一つまたは複数のプログラムを記憶するための記憶装置と、を含む電子機器であって、
前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサが、請求項1~3のいずれかに記載の方法を実現する、
ことを特徴とする電子機器。 - コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラムがプロセッサによって実行される場合、請求項1~3のいずれかに記載の方法が実現される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。 - コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項1~3のいずれかに記載の方法が実行される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911115505.1 | 2019-11-14 | ||
CN201911115505.1A CN110866090A (zh) | 2019-11-14 | 2019-11-14 | 用于语音交互的方法、装置、电子设备和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021081712A JP2021081712A (ja) | 2021-05-27 |
JP7300435B2 true JP7300435B2 (ja) | 2023-06-29 |
Family
ID=69654866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020185935A Active JP7300435B2 (ja) | 2019-11-14 | 2020-11-06 | 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11830482B2 (ja) |
JP (1) | JP7300435B2 (ja) |
CN (1) | CN110866090A (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021124613A (ja) * | 2020-02-05 | 2021-08-30 | キヤノン株式会社 | 音声入力装置およびその制御方法ならびにプログラム |
CN111429903B (zh) * | 2020-03-19 | 2021-02-05 | 百度在线网络技术(北京)有限公司 | 音频信号识别方法、装置、系统、设备和可读介质 |
US11531821B2 (en) * | 2020-08-13 | 2022-12-20 | Salesforce, Inc. | Intent resolution for chatbot conversations with negation and coreferences |
CN113591470A (zh) * | 2021-06-24 | 2021-11-02 | 海信视像科技股份有限公司 | 一种语义理解方法及装置 |
CN113408274B (zh) * | 2021-07-13 | 2022-06-24 | 北京百度网讯科技有限公司 | 训练语言模型的方法和标签设置方法 |
CN113674742B (zh) * | 2021-08-18 | 2022-09-27 | 北京百度网讯科技有限公司 | 人机交互方法、装置、设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563790A (zh) | 2018-04-28 | 2018-09-21 | 科大讯飞股份有限公司 | 一种语义理解方法及装置、设备、计算机可读介质 |
CN108959257A (zh) | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 一种自然语言解析方法、装置、服务器及存储介质 |
WO2019142427A1 (ja) | 2018-01-16 | 2019-07-25 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11107462B1 (en) * | 2017-10-30 | 2021-08-31 | Facebook, Inc. | Methods and systems for performing end-to-end spoken language analysis |
CN108549656B (zh) * | 2018-03-09 | 2022-06-28 | 北京百度网讯科技有限公司 | 语句解析方法、装置、计算机设备及可读介质 |
CN110309277B (zh) * | 2018-03-28 | 2023-08-18 | 蔚来控股有限公司 | 人机对话语义解析方法和系统、车载人机对话方法和系统、控制器及存储介质 |
US10847153B2 (en) * | 2018-06-06 | 2020-11-24 | Amazon Technologies, Inc. | Temporary account association with voice-enabled devices |
CN109241524B (zh) * | 2018-08-13 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 语义解析方法及装置、计算机可读存储介质、电子设备 |
US11355098B1 (en) * | 2018-12-13 | 2022-06-07 | Amazon Technologies, Inc. | Centralized feedback service for performance of virtual assistant |
US11348573B2 (en) * | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11074908B2 (en) * | 2019-03-29 | 2021-07-27 | Nuance Communications, Inc. | System and method for aligning ASR model weights with NLU concepts |
US11657094B2 (en) * | 2019-06-28 | 2023-05-23 | Meta Platforms Technologies, Llc | Memory grounded conversational reasoning and question answering for assistant systems |
US11158321B2 (en) * | 2019-09-24 | 2021-10-26 | Google Llc | Automated calling system |
-
2019
- 2019-11-14 CN CN201911115505.1A patent/CN110866090A/zh active Pending
-
2020
- 2020-06-08 US US16/895,318 patent/US11830482B2/en active Active
- 2020-11-06 JP JP2020185935A patent/JP7300435B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019142427A1 (ja) | 2018-01-16 | 2019-07-25 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
CN108563790A (zh) | 2018-04-28 | 2018-09-21 | 科大讯飞股份有限公司 | 一种语义理解方法及装置、设备、计算机可读介质 |
CN108959257A (zh) | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 一种自然语言解析方法、装置、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20210151039A1 (en) | 2021-05-20 |
CN110866090A (zh) | 2020-03-06 |
US11830482B2 (en) | 2023-11-28 |
JP2021081712A (ja) | 2021-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7300435B2 (ja) | 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体 | |
US11503155B2 (en) | Interactive voice-control method and apparatus, device and medium | |
KR102313473B1 (ko) | 자동 어시스턴트를 위한 명령 번들 제안 제공 | |
JP6820058B2 (ja) | 音声認識方法、装置、デバイス、及び記憶媒体 | |
CN110288985B (zh) | 语音数据处理方法、装置、电子设备及存储介质 | |
US9805718B2 (en) | Clarifying natural language input using targeted questions | |
US11016968B1 (en) | Mutation architecture for contextual data aggregator | |
CN111667833B (zh) | 基于对话的语音识别 | |
US10860289B2 (en) | Flexible voice-based information retrieval system for virtual assistant | |
KR20200127814A (ko) | 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법 | |
WO2018045646A1 (zh) | 基于人工智能的人机交互方法和装置 | |
JP7063937B2 (ja) | 音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム | |
US20160155445A1 (en) | System and method for localized error detection of recognition results | |
US11289075B1 (en) | Routing of natural language inputs to speech processing applications | |
US11398226B1 (en) | Complex natural language processing | |
US11532301B1 (en) | Natural language processing | |
CN113761268A (zh) | 音频节目内容的播放控制方法、装置、设备和存储介质 | |
US11817093B2 (en) | Method and system for processing user spoken utterance | |
US11626107B1 (en) | Natural language processing | |
CN111324626B (zh) | 基于语音识别的搜索方法、装置、计算机设备及存储介质 | |
CN112395414A (zh) | 文本分类方法和分类模型的训练方法、装置、介质和设备 | |
US11947912B1 (en) | Natural language processing | |
US20240013782A1 (en) | History-Based ASR Mistake Corrections | |
US11380308B1 (en) | Natural language processing | |
US11893994B1 (en) | Processing optimization using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220331 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221129 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20221129 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20221212 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20221213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230619 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7300435 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |