JP7317529B2 - サウンドデータを処理するシステム、及びシステムの制御方法 - Google Patents
サウンドデータを処理するシステム、及びシステムの制御方法 Download PDFInfo
- Publication number
- JP7317529B2 JP7317529B2 JP2019046536A JP2019046536A JP7317529B2 JP 7317529 B2 JP7317529 B2 JP 7317529B2 JP 2019046536 A JP2019046536 A JP 2019046536A JP 2019046536 A JP2019046536 A JP 2019046536A JP 7317529 B2 JP7317529 B2 JP 7317529B2
- Authority
- JP
- Japan
- Prior art keywords
- module
- user
- information
- user terminal
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 31
- 238000012545 processing Methods 0.000 title claims description 15
- 230000005236 sound signal Effects 0.000 claims description 62
- 238000004891 communication Methods 0.000 claims description 30
- 230000009471 action Effects 0.000 description 46
- 230000007613 environmental effect Effects 0.000 description 43
- 230000006870 function Effects 0.000 description 43
- 238000010586 diagram Methods 0.000 description 28
- 238000004458 analytical method Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 238000012546 transfer Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000036961 partial effect Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000008216 herbs Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004622 sleep time Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Description
図1を参照すれば、統合知能化システム10は、ユーザ端末100、知能型サーバー200、個人化情報サーバー300、提案サーバー400又は通信ネットワーク500を含む。
図2を参照すれば、ユーザ端末100は入力モジュール110、ディスプレー120、スピーカー130、メモリー140又はプロセッサ150を含む。ユーザ端末100はハウジングをさらに含み、前記ユーザ端末100の構成は前記ハウジングの内部に安着されたりハウジング上に(on the housing)位置する。ユーザ端末100は前記ハウジングの内部に位置した通信回路をさらに含む。ユーザ端末100は前記通信回路を介して外部サーバー(例えば、知能型サーバー200とデータ(又は、情報)を送受信する。
図3を参照すれば、ユーザ端末100がユーザ入力を受信して知能型エージェント145と連動された知能型アプリ(例えば、音声認識アプリ)を実行させることを示す図面である。
図4を参照すれば、プロセッサ150は知能型エージェント145からコンテキストリクエストを受信(1)すれば、コンテキストモジュール149aを介してアプリ141、143の現状を示すコンテキスト情報をリクエスト(2)する。一実施形態によれば、プロセッサ150はコンテキストモジュール149aを介してアプリ141、143から前記コンテキスト情報を受信(3)して知能型エージェント145に送信(4)する。
図5を参照すれば、提案モジュール149cはヒント提供モジュール149c-1、コンテキストヒント生成モジュール149c-2、条件チェッキングモジュール149c-3、条件モデルモジュール149c-4、再使用ヒント生成モジュール149c-5又は紹介ヒント生成モジュール149c-6を含む。
図6を参照すれば、知能型サーバー200は自動音声認識(automatic speech recognition、ASR)モジュール210、自然語理解(natural language understanding、NLU)モジュール220、パスプランナー(path planner)モジュール230、対話マネージャー(dialogue manager、DM)モジュール240、自然語生成(natural language generator、NLG)モジュール250又はテキスト音声変換(text to speech、TTS)モジュール260を含む。一実施形態によれば、知能型サーバー200は通信回路、メモリー及びプロセッサを含む。前記プロセッサは前記メモリーに記憶された命令語を実行して自動音声認識モジュール210、自然語理解モジュール220、パスプランナーモジュール230、対話マネージャーモジュール240、自然語生成モジュール250及びテキスト音声変換モジュール260を駆動させる。知能型サーバー200は前記通信回路を介して外部電子装置(例えば、ユーザ端末100とデータ(又は、情報))と送受信する。
図7を参照すれば、一実施形態による、自然語理解モジュール220はアプリの機能をいずれか一つの動作(例えば、状態A乃至状態F)で区分してパスルールデータベース231に記憶させる。例えば、自然語理解モジュール220はいずれか一つの動作(例えば、状態)で区分された複数のパスルール(A-B1-C1、A-B1-C2、A-B1-C3-D-F、A-B1-C3-D-E-F)を含むパスルールセットをデータベース231に記憶させる。
例えば、PPモジュール230はユーザ端末100が、通信の樹立されたTV1010に向けて音を小さくすることをリクエストする信号を送信するパスルールを選択する。
一実施形態による学習モデルは、例えば、音声と環境音を含むオーディオデータの内容を推定して知能化サービスを実行するように設定された学習モデルである。
一実施形態によれば、ユーザ端末100に含まれた知能型エージェント(例えば、図2の知能型エージェント145)は受信したオーディオデータのカテゴリーを推定する。
ユーザ端末100は生成されたパスルールによって機能を実行する。
多様な実施形態によれば、ユーザ端末100は予め設定された単語、又は文章が受信される場合に一定時間のオーディオデータを受信して記憶する。
一実施形態によれば、知能型サーバー200のASRモジュール210はオーディオデータで音声と環境音を区分する。ASRモジュール210は区分された音声をテキストデータ形態に変更する。例えば、ASRモジュール210に含まれた発話認識モジュールは受信した音声に含まれた発声と音素情報及び音素情報の組合わせに対する情報を用いて、受信した音声と環境音をテキストデータ形態に変換する。
PPモジュール230はユーザ端末100の知能型エージェント(例えば、図2の知能型エージェント145)から受信したユーザ端末100の情報(例えば、アプリ使用情報、端末の姿勢情報など)に対応するパスルールを選択してNLUモジュール220に送信する。例えば、PPモジュール230は、ユーザの端末がカバンやポケットなど暗い環境に位置している情報を受信し、録音アプリケーションを実行するパスルールを選択する。PPモジュール230は選択されたパスルールをNLUモジュール220に送信する。
一実施形態によれば、第1構成要素1101に対応するユーザ端末(例えば、図9のユーザ端末100)はオーディオデータに含まれた音声と環境音を区分する。例えば、ユーザ端末(例えば、図9のユーザ端末100)はオーディオデータに含まれた衝撃音は環境音として区分し、俗語及び高音は音声として区分する。
100 ユーザ端末
110 入力モジュール
111 マイク
112 ハードウェアキー
120 ディスプレイ
120a、120b 入力
121 UI(user interface)
121a 音声認識ボタン
130 スピーカー
140、1630 メモリー
141、143 アプリ(アプリケーションプログラム)
141a、143a 実行サービスモジュール
141b、143b 動作
145 知能型エージェント
147 実行マネージャーモジュール
149 知能型サービスモジュール
149a コンテキストモジュール
149b ペルソナモジュール
149c 提案モジュール
149c-1 ヒント提供モジュール
149c-2 コンテキストヒント生成モジュール
149c-3 条件チェッキングモジュール
149c-4 条件モデルモジュール
149c-5 再使用ヒント生成モジュール
149c-6 紹介ヒント生成モジュール
150 プロセッサ
200 知能型サーバー
210 自動音声認識(ASR)モジュール
211 自動音声認識データベース
220 自然語理解(NLU)モジュール
221 自然語認識データベース
230 パスプランナー(PP)モジュール
231 パスルールデータベース
240 対話マネージャー(DM)モジュール
250 自然語生成(NLG)モジュール
260 テキスト音声変換(TTS)モジュール
300 個人化情報サーバー
400 提案サーバー
500 通信ネットワーク
1010 TV
1101 第1構成要素
1102 第2構成要素
1210 学習データ
1212 オーディオデータ
1214 オーディオデータの特徴
1216 オーディオデータの内容
1218 パスルール
1601 ネットワーク環境内の電子装置
1602、1604 電子装置
1608 サーバー
1620 プロセッサ
1621 メインプロセッサ
1623 補助プロセッサ
1632 揮発性メモリー
1634 非揮発性メモリー
1636 内装メモリー
1638 外装メモリー
1640 プログラム
1642 オペレーティングシステム
1644 ミドルウェア
1646 アプリケーション
1650 入力装置
1655 音響出力装置
1660 表示装置
1670 オーディオモジュール
1676 センサモジュール
1677 インターフェース
1678 接続端子
1679 ハプティックモジュール
1680 カメラモジュール
1688 電力管理モジュール
1689 バッテリ
1690 通信モジュール
1692 無線通信モジュール
1694 有線通信モジュール
1696 加入者識別モジュール
1697 アンテナモジュール
1699 ネットワーク
Claims (3)
- サウンドデータを処理するシステムであって、
通信インターフェースと、
前記通信インターフェースと作動的に接続された少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと作動的に接続された少なくとも一つのメモリーと、を含み、
前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、
前記通信インターフェースを介して第1外部装置からサウンドデータを受信し、
自動音声認識モジュールの少なくとも一部を用いて前記サウンドデータで音声信号とノイズ信号を抽出し、
前記音声信号をテキストデータに変更し、
前記ノイズ信号の少なくとも一部に基づいてノイズパターンを決定し、
前記テキストデータ及び前記ノイズパターンを用いてドメインを決定するように設定された命令語を記憶し、
前記テキストデータの少なくとも一部に基づいて意図を決定するように設定された命令語を記憶し、
前記第1外部装置が前記音声信号に係るタスクを実行するための状態のシーケンスを決定するように設定された命令語を記憶し、
第2外部装置が前記音声信号に係るタスクを実行するための状態のシーケンスを決定するように設定された命令語を記憶し、
前記通信インターフェースを介して前記状態のシーケンスを前記第1外部装置に提供するように設定された命令語を記憶する、ことを特徴とするシステム。 - 第1外部装置からサウンドデータを受信する動作と、
前記サウンドデータで音声信号とノイズ信号を抽出する動作と、
前記音声信号をテキストデータに変更する動作と、
前記ノイズ信号の少なくとも一部に基づいてノイズパターンを決定する動作と、
前記テキストデータと前記ノイズパターンを用いてドメインを決定する動作と、を含み、
システムの制御方法は、
前記第1外部装置が前記音声信号に係るタスクを実行するための状態のシーケンスを決定する動作を含み、
前記システムの制御方法は、
前記状態のシーケンスを前記第1外部装置に提供する動作を含み、
少なくとも一つのメモリーは、動作時、少なくとも一つのプロセッサが、
通信インターフェースを介して前記状態のシーケンスを前記第1外部装置に提供するように設定された命令語を記憶する、ことを特徴とするサウンドデータを処理するシステムの制御方法。 - 前記システムの制御方法は、
前記テキストデータの少なくとも一部に基づいて意図を決定する動作を含む、ことを特徴とする請求項2に記載のサウンドデータを処理するシステムの制御方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180031472A KR102635811B1 (ko) | 2018-03-19 | 2018-03-19 | 사운드 데이터를 처리하는 시스템 및 시스템의 제어 방법 |
KR10-2018-0031472 | 2018-03-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019164345A JP2019164345A (ja) | 2019-09-26 |
JP7317529B2 true JP7317529B2 (ja) | 2023-07-31 |
Family
ID=65903984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019046536A Active JP7317529B2 (ja) | 2018-03-19 | 2019-03-13 | サウンドデータを処理するシステム、及びシステムの制御方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11004451B2 (ja) |
EP (1) | EP3543999A3 (ja) |
JP (1) | JP7317529B2 (ja) |
KR (1) | KR102635811B1 (ja) |
CN (1) | CN110288987B (ja) |
WO (1) | WO2019182226A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11700412B2 (en) | 2019-01-08 | 2023-07-11 | Universal Electronics Inc. | Universal voice assistant |
US11295603B2 (en) | 2011-10-28 | 2022-04-05 | Universal Electronics Inc. | System and method for optimized appliance control |
US11756412B2 (en) | 2011-10-28 | 2023-09-12 | Universal Electronics Inc. | Systems and methods for associating services and/or devices with a voice assistant |
US11792185B2 (en) | 2019-01-08 | 2023-10-17 | Universal Electronics Inc. | Systems and methods for associating services and/or devices with a voice assistant |
CN108600911B (zh) * | 2018-03-30 | 2021-05-18 | 联想(北京)有限公司 | 一种输出方法及电子设备 |
US11776539B2 (en) | 2019-01-08 | 2023-10-03 | Universal Electronics Inc. | Voice assistant with sound metering capabilities |
US20220284920A1 (en) * | 2019-07-05 | 2022-09-08 | Gn Audio A/S | A method and a noise indicator system for identifying one or more noisy persons |
CN112581961A (zh) * | 2019-09-27 | 2021-03-30 | 百度在线网络技术(北京)有限公司 | 一种语音信息处理方法及装置 |
US10798583B1 (en) * | 2019-10-07 | 2020-10-06 | Paypal, Inc. | Mobile device user detection |
WO2021076093A1 (en) * | 2019-10-14 | 2021-04-22 | Siemens Aktiengesellschaft | Artificial intelligence (ai) companions for function blocks in a programmable logic controller (plc) program for integrating ai in automation |
KR20210045241A (ko) | 2019-10-16 | 2021-04-26 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 명령어 공유 방법 |
CN111081248A (zh) * | 2019-12-27 | 2020-04-28 | 安徽仁昊智能科技有限公司 | 一种人工智能语音识别装置 |
WO2021138334A1 (en) * | 2019-12-31 | 2021-07-08 | Universal Electronics Inc. | Voice assistant with sound metering capabilities |
WO2021165900A1 (en) * | 2020-02-21 | 2021-08-26 | Das Mrinmoy Jyoti | An automated system to perform desired orchestration activity |
KR102400903B1 (ko) * | 2020-03-13 | 2022-05-24 | 주식회사 코클 | 오디오 데이터 식별장치 |
KR20210119181A (ko) | 2020-03-24 | 2021-10-05 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
US11929079B2 (en) * | 2020-10-27 | 2024-03-12 | Samsung Electronics Co., Ltd | Electronic device for managing user model and operating method thereof |
CN112465664B (zh) * | 2020-11-12 | 2022-05-03 | 贵州电网有限责任公司 | 一种基于人工神经网络及深度强化学习的avc智能控制方法 |
CN113976478A (zh) * | 2021-11-15 | 2022-01-28 | 中国联合网络通信集团有限公司 | 矿石检测方法、服务器、终端及系统 |
US11995755B1 (en) * | 2022-12-31 | 2024-05-28 | Theai, Inc. | Emotional state models and continuous update of emotional states of artificial intelligence characters |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014002737A (ja) | 2012-06-15 | 2014-01-09 | Samsung Electronics Co Ltd | サーバ及びサーバの制御方法 |
JP2014509757A (ja) | 2011-03-31 | 2014-04-21 | マイクロソフト コーポレーション | ロケーションベースの会話理解 |
JP2015517709A (ja) | 2012-06-30 | 2015-06-22 | インテル コーポレイション | コンテキストに基づくメディアを適応配信するシステム |
WO2016136062A1 (ja) | 2015-02-27 | 2016-09-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
JP2017010516A (ja) | 2015-06-24 | 2017-01-12 | 百度在線網絡技術(北京)有限公司 | 人工知能に基づくヒューマンコンピュータインターアクションの方法、装置及び端末機器 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040053393A (ko) | 2002-12-14 | 2004-06-24 | 삼성전자주식회사 | 이동통신 단말기를 이용한 응급구조 요청방법 |
KR100679043B1 (ko) * | 2005-02-15 | 2007-02-05 | 삼성전자주식회사 | 음성 대화 인터페이스 장치 및 방법 |
US7490042B2 (en) * | 2005-03-29 | 2009-02-10 | International Business Machines Corporation | Methods and apparatus for adapting output speech in accordance with context of communication |
US8323189B2 (en) | 2006-05-12 | 2012-12-04 | Bao Tran | Health monitoring appliance |
US7792813B2 (en) * | 2007-08-31 | 2010-09-07 | Microsoft Corporation | Presenting result items based upon user behavior |
US8311820B2 (en) * | 2010-01-28 | 2012-11-13 | Hewlett-Packard Development Company, L.P. | Speech recognition based on noise level |
JP6131249B2 (ja) * | 2011-06-19 | 2017-05-17 | エムモーダル アイピー エルエルシー | コンテキストアウェア認識モデルを使用した音声認識 |
US9502029B1 (en) * | 2012-06-25 | 2016-11-22 | Amazon Technologies, Inc. | Context-aware speech processing |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
WO2014050002A1 (ja) * | 2012-09-28 | 2014-04-03 | 日本電気株式会社 | クエリ類似度評価システム、評価方法、及びプログラム |
KR102091003B1 (ko) * | 2012-12-10 | 2020-03-19 | 삼성전자 주식회사 | 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치 |
DE212014000045U1 (de) * | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9236046B2 (en) * | 2013-03-14 | 2016-01-12 | Covidien Lp | Systems and methods for identifying patient distress based on a sound signal |
US9412373B2 (en) * | 2013-08-28 | 2016-08-09 | Texas Instruments Incorporated | Adaptive environmental context sample and update for comparing speech recognition |
US9432768B1 (en) * | 2014-03-28 | 2016-08-30 | Amazon Technologies, Inc. | Beam forming for a wearable computer |
JP6410491B2 (ja) * | 2014-06-27 | 2018-10-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム |
KR102169692B1 (ko) * | 2014-07-08 | 2020-10-26 | 삼성전자주식회사 | 멀티-코어 프로세서를 포함하는 시스템 온 칩 및 그것의 동적 전력 관리 방법 |
KR102332729B1 (ko) * | 2014-07-28 | 2021-11-30 | 삼성전자주식회사 | 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치 |
KR102247533B1 (ko) * | 2014-07-30 | 2021-05-03 | 삼성전자주식회사 | 음성 인식 장치 및 그 제어 방법 |
US9799329B1 (en) | 2014-12-03 | 2017-10-24 | Amazon Technologies, Inc. | Removing recurring environmental sounds |
KR101941273B1 (ko) | 2014-12-09 | 2019-04-10 | 경희대학교 산학협력단 | 모바일 단말기 기반의 생활 코칭 방법과 모바일 단말기 및 이 방법을 기록한 컴퓨터로 읽을 수 있는 기록 매체 |
JP6584795B2 (ja) * | 2015-03-06 | 2019-10-02 | 株式会社東芝 | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム |
KR101774236B1 (ko) * | 2015-05-22 | 2017-09-12 | 한국항공대학교산학협력단 | 사용자 상황 인지 장치 및 방법 |
KR20170000722A (ko) * | 2015-06-24 | 2017-01-03 | 엘지전자 주식회사 | 전자기기 및 그의 음성 인식 방법 |
KR20170018140A (ko) * | 2015-08-05 | 2017-02-16 | 한국전자통신연구원 | 비언어적 음성 인식을 포함하는 응급 상황 진단 방법 및 장치 |
KR20170032114A (ko) * | 2015-09-14 | 2017-03-22 | 삼성전자주식회사 | 음성 인식 장치 및 그의 제어방법 |
US10289381B2 (en) * | 2015-12-07 | 2019-05-14 | Motorola Mobility Llc | Methods and systems for controlling an electronic device in response to detected social cues |
CN107195296B (zh) * | 2016-03-15 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
CN107516511B (zh) * | 2016-06-13 | 2021-05-25 | 微软技术许可有限责任公司 | 意图识别和情绪的文本到语音学习系统 |
KR101772156B1 (ko) * | 2016-07-22 | 2017-09-12 | 이풍우 | 음성 인식 하드웨어 모듈 |
KR20180135940A (ko) * | 2016-08-09 | 2018-12-21 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 시스템 온 칩 및 처리 장치 |
KR102515996B1 (ko) * | 2016-08-26 | 2023-03-31 | 삼성전자주식회사 | 음성 인식을 위한 전자 장치 및 그 제어 방법 |
US10360910B2 (en) * | 2016-08-29 | 2019-07-23 | Garmin Switzerland Gmbh | Automatic speech recognition (ASR) utilizing GPS and sensor data |
-
2018
- 2018-03-19 KR KR1020180031472A patent/KR102635811B1/ko active IP Right Grant
- 2018-12-11 WO PCT/KR2018/015677 patent/WO2019182226A1/en active Application Filing
-
2019
- 2019-02-27 CN CN201910144585.7A patent/CN110288987B/zh active Active
- 2019-03-12 US US16/299,814 patent/US11004451B2/en active Active
- 2019-03-13 JP JP2019046536A patent/JP7317529B2/ja active Active
- 2019-03-19 EP EP19163797.4A patent/EP3543999A3/en not_active Ceased
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014509757A (ja) | 2011-03-31 | 2014-04-21 | マイクロソフト コーポレーション | ロケーションベースの会話理解 |
JP2014002737A (ja) | 2012-06-15 | 2014-01-09 | Samsung Electronics Co Ltd | サーバ及びサーバの制御方法 |
JP2015517709A (ja) | 2012-06-30 | 2015-06-22 | インテル コーポレイション | コンテキストに基づくメディアを適応配信するシステム |
WO2016136062A1 (ja) | 2015-02-27 | 2016-09-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2017010516A (ja) | 2015-06-24 | 2017-01-12 | 百度在線網絡技術(北京)有限公司 | 人工知能に基づくヒューマンコンピュータインターアクションの方法、装置及び端末機器 |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
Also Published As
Publication number | Publication date |
---|---|
KR102635811B1 (ko) | 2024-02-13 |
KR20190109868A (ko) | 2019-09-27 |
EP3543999A3 (en) | 2019-11-06 |
EP3543999A2 (en) | 2019-09-25 |
US11004451B2 (en) | 2021-05-11 |
CN110288987B (zh) | 2024-02-06 |
WO2019182226A1 (en) | 2019-09-26 |
US20190287525A1 (en) | 2019-09-19 |
JP2019164345A (ja) | 2019-09-26 |
CN110288987A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7317529B2 (ja) | サウンドデータを処理するシステム、及びシステムの制御方法 | |
US10832674B2 (en) | Voice data processing method and electronic device supporting the same | |
US11367439B2 (en) | Electronic device and method for providing artificial intelligence services based on pre-gathered conversations | |
US11670302B2 (en) | Voice processing method and electronic device supporting the same | |
KR20190042918A (ko) | 전자 장치 및 그의 동작 방법 | |
KR20190042903A (ko) | 음성 신호를 제어하기 위한 전자 장치 및 방법 | |
US20180165581A1 (en) | Electronic apparatus, method of providing guide and non-transitory computer readable recording medium | |
CN110945584B (zh) | 基于上下文信息确定接收语音输入的持续时间的电子设备和系统 | |
KR102508863B1 (ko) | 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버 | |
CN111937028A (zh) | 通过使用聊天机器人提供服务的方法及其设备 | |
US10560576B1 (en) | Electronic device for performing task including call in response to user utterance and operation method thereof | |
KR20190139489A (ko) | 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치 | |
US11361750B2 (en) | System and electronic device for generating tts model | |
US11443738B2 (en) | Electronic device processing user utterance and control method thereof | |
US11720324B2 (en) | Method for displaying electronic document for processing voice command, and electronic device therefor | |
KR20190021088A (ko) | 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법 | |
KR20220082577A (ko) | 전자장치 및 그의 제어방법 | |
KR20240045927A (ko) | 음성인식 장치 및 음성인식 장치의 동작방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7317529 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |