JP6573696B2 - ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム - Google Patents
ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム Download PDFInfo
- Publication number
- JP6573696B2 JP6573696B2 JP2018076699A JP2018076699A JP6573696B2 JP 6573696 B2 JP6573696 B2 JP 6573696B2 JP 2018076699 A JP2018076699 A JP 2018076699A JP 2018076699 A JP2018076699 A JP 2018076699A JP 6573696 B2 JP6573696 B2 JP 6573696B2
- Authority
- JP
- Japan
- Prior art keywords
- voice input
- content
- voice
- progress
- electronic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims description 62
- 238000000034 method Methods 0.000 title claims description 52
- 230000002093 peripheral effect Effects 0.000 claims description 28
- 230000009471 action Effects 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 20
- 238000005259 measurement Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 230000010363 phase shift Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 19
- 230000015654 memory Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 239000011295 pitch Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000005611 electricity Effects 0.000 description 4
- 230000004622 sleep time Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/002—Specific input/output arrangements not covered by G06F3/01 - G06F3/16
- G06F3/005—Input arrangements through a video camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/72—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Tourism & Hospitality (AREA)
- Otolaryngology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- User Interface Of Digital Computer (AREA)
Description
110:ユーザ
210:外部サーバ
Claims (17)
- マルチモーダルインタラクションシステムのマルチモーダルインタラクション方法であって、
電子機器に含まれる音声基盤のインタフェースを通じてコンテンツの進行のためのオーディオ情報を出力する段階、
前記音声基盤のインタフェースを通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信する段階、
前記発話者の前記音声入力と関連する位置情報を生成する段階、および
前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定する段階
を含み、前記オーディオ情報は、前記発話者の位置の変更を要求する情報を含み、
前記コンテンツの進行と関連する動作を決定する段階は、
前記音声入力および前記音声入力と関連する位置情報が前記要求された情報に対応する条件を満たしているかどうかによって前記コンテンツの進行と関連する動作を決定することを特徴とする、マルチモーダルインタラクション方法。 - 前記音声入力と関連する位置情報は、前記音声入力の受信に関連する時点または期間に測定された、前記電子機器に対する前記発話者の相対的な位置や方向、前記相対的な位置や方向の変化の有無、前記相対的な位置や方向の変化の程度、および前記相対的な位置や方向の変化の方向のうちの少なくとも1つを含むことを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
- 前記位置情報を生成する段階は、
前記音声基盤のインタフェースに含まれる複数のマイクに入力された前記音声入力の位相シフトに基づいて前記音声入力と関連する位置情報を生成することを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。 - 前記電子機器は、カメラおよびセンサのうちの少なくとも1つを含み、
前記位置情報を生成する段階は、
前記音声入力が受信された場合の前記カメラおよびセンサのうちの少なくとも1つの出力値に基づいて、前記音声入力と関連する位置情報を生成することを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。 - 前記コンテンツの進行と関連する動作を決定する段階は、
前記音声入力に対応する音のトーン、音のピッチ、および前記音声入力を分析して抽出される命令語のうちの少なくとも1つと、前記音声入力に関連する位置情報とを併せて前記コンテンツの進行と関連する動作を決定することを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。 - 前記電子機器と連動する周辺機器のセンサにより前記音声入力と関連して測定された測定値を、前記周辺機器から受信する段階
をさらに含み、
前記コンテンツの進行と関連する動作を決定する段階は、
前記受信した測定値をさらに利用して前記コンテンツの進行と関連する動作を決定することを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。 - 前記電子機器と連動する周辺機器のセンサにより前記音声入力とは関係なく測定された測定値を、前記周辺機器から受信する段階、および
前記受信した測定値に基づいて前記コンテンツの進行と関連する設定を変更する段階
をさらに含むことを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。 - 前記コンテンツは、前記電子機器とネットワークを介して通信する外部サーバから提供され、
前記コンテンツの進行と関連する動作を決定する段階は、
前記音声入力および前記音声入力と関連する位置情報を、ネットワークを介して前記外部サーバに送信する段階、
前記外部サーバにより前記音声入力および前記音声入力と関連する位置情報に基づいて生成される動作情報を、ネットワークを介して前記外部サーバから受信する段階、および
前記受信した動作情報に基づいて前記コンテンツの進行と関連する動作を決定する段階
を含むことを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。 - 請求項1乃至8のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータプログラム。
- 請求項1乃至8のいずれか一項に記載の方法をコンピュータに実行させるためのプログラムが記録される、コンピュータ読取可能な記録媒体。
- マルチモーダルインタラクションシステムであって、
音声基盤のインタフェース部、および
コンピュータ読取可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
前記音声基盤のインタフェース部を通じてコンテンツの進行のためのオーディオ情報を出力し、
前記音声基盤のインタフェース部を通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信し、
前記発話者の前記音声入力と関連する位置情報を生成し、
前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定し、
前記オーディオ情報は、前記発話者に発話および前記発話者の位置の変更を要求する情報を含み、
前記少なくとも1つのプロセッサは、前記音声入力および前記音声入力と関連する位置情報が前記要求された情報に対応する条件を満たしているかどうかによって前記コンテンツの進行と関連する動作を決定すること
を特徴とする、マルチモーダルインタラクションシステム。 - 前記少なくとも1つのプロセッサは、
前記音声基盤のインタフェース部に含まれる複数のマイクに入力された前記音声入力の位相シフトに基づいて、前記音声入力と関連する位置情報を生成すること
を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。 - カメラおよびセンサのうちの少なくとも1つをさらに含み、
前記少なくとも1つのプロセッサは、
前記音声入力が受信された場合の前記カメラおよびセンサのうちの少なくとも1つの出力値に基づいて前記音声入力と関連する位置情報を生成すること
を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。 - 前記少なくとも1つのプロセッサは、
前記音声入力に対応する音のトーン、音のピッチ、および前記音声入力を分析して抽出される命令語のうちの少なくとも1つと、前記音声入力に関連する位置情報とを併せて前記コンテンツの進行と関連する動作を決定すること
を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。 - 前記少なくとも1つのプロセッサは、
前記マルチモーダルインタラクションシステムと連動する周辺機器のセンサにより前記音声入力と関連して測定された測定値を前記周辺機器から受信し、
前記コンテンツの進行と関連した動作を決定するために、前記受信した測定値をさらに利用して前記コンテンツの進行と関連する動作を決定すること
を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。 - 前記少なくとも1つのプロセッサは、
前記マルチモーダルインタラクションシステムと連動する周辺機器のセンサにより前記音声入力とは関係なく測定された測定値を、前記周辺機器から受信し、
前記受信した測定値に基づいて前記コンテンツの進行と関連する設定を変更すること
を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。 - 前記コンテンツは、ネットワークを介して通信する外部サーバから提供され、
前記少なくとも1つのプロセッサは、前記コンテンツの進行と関連する動作を決定するために、
前記音声入力および前記音声入力と関連する位置情報を、ネットワークを介して前記外部サーバに送信し、
前記外部サーバにより前記音声入力および前記音声入力と関連する位置情報に基づいて生成される動作情報を、ネットワークを介して前記外部サーバから受信し、
前記受信した動作情報に基づいて前記コンテンツの進行と関連する動作を決定すること
を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170048304A KR101924852B1 (ko) | 2017-04-14 | 2017-04-14 | 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템 |
KR10-2017-0048304 | 2017-04-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018180542A JP2018180542A (ja) | 2018-11-15 |
JP6573696B2 true JP6573696B2 (ja) | 2019-09-11 |
Family
ID=63793266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018076699A Active JP6573696B2 (ja) | 2017-04-14 | 2018-04-12 | ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11004452B2 (ja) |
JP (1) | JP6573696B2 (ja) |
KR (1) | KR101924852B1 (ja) |
WO (1) | WO2018190507A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101924852B1 (ko) * | 2017-04-14 | 2018-12-04 | 네이버 주식회사 | 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템 |
CN108600911B (zh) * | 2018-03-30 | 2021-05-18 | 联想(北京)有限公司 | 一种输出方法及电子设备 |
US20200209934A1 (en) * | 2018-12-28 | 2020-07-02 | Dongguan Evn Electronics Co., Ltd. | Internet-of-things-based computer on/off control expansion device and computer on/off control system |
KR20210116897A (ko) | 2020-03-18 | 2021-09-28 | 삼성전자주식회사 | 외부 장치의 음성 기반 제어를 위한 방법 및 그 전자 장치 |
CN112162628A (zh) * | 2020-09-01 | 2021-01-01 | 魔珐(上海)信息科技有限公司 | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 |
CN115220631A (zh) * | 2022-07-19 | 2022-10-21 | 东软睿驰汽车技术(大连)有限公司 | 基于车内交互模式的应用控制方法、装置和电子设备 |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5699089A (en) * | 1994-03-03 | 1997-12-16 | Applied Voice Technology | Central control for sequential-playback objects |
US7516190B2 (en) * | 2000-02-04 | 2009-04-07 | Parus Holdings, Inc. | Personal voice-based information retrieval system |
US7640006B2 (en) * | 2001-10-03 | 2009-12-29 | Accenture Global Services Gmbh | Directory assistance with multi-modal messaging |
US7233655B2 (en) * | 2001-10-03 | 2007-06-19 | Accenture Global Services Gmbh | Multi-modal callback |
US7254384B2 (en) * | 2001-10-03 | 2007-08-07 | Accenture Global Services Gmbh | Multi-modal messaging |
US20060168095A1 (en) * | 2002-01-22 | 2006-07-27 | Dipanshu Sharma | Multi-modal information delivery system |
US7286651B1 (en) * | 2002-02-12 | 2007-10-23 | Sprint Spectrum L.P. | Method and system for multi-modal interaction |
US7693720B2 (en) * | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
JP2005122128A (ja) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
JP2005250917A (ja) * | 2004-03-05 | 2005-09-15 | Ikeno Tsuken Kk | 音声認識型音声案内装置 |
US10032452B1 (en) * | 2016-12-30 | 2018-07-24 | Google Llc | Multimodal transmission of packetized data |
JP2006243555A (ja) * | 2005-03-04 | 2006-09-14 | Nec Corp | 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法 |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7676371B2 (en) * | 2006-06-13 | 2010-03-09 | Nuance Communications, Inc. | Oral modification of an ASR lexicon of an ASR engine |
US8145493B2 (en) * | 2006-09-11 | 2012-03-27 | Nuance Communications, Inc. | Establishing a preferred mode of interaction between a user and a multimodal application |
US7827033B2 (en) * | 2006-12-06 | 2010-11-02 | Nuance Communications, Inc. | Enabling grammars in web page frames |
US8938392B2 (en) * | 2007-02-27 | 2015-01-20 | Nuance Communications, Inc. | Configuring a speech engine for a multimodal application based on location |
US8670987B2 (en) * | 2007-03-20 | 2014-03-11 | Nuance Communications, Inc. | Automatic speech recognition with dynamic grammar rules |
US8862475B2 (en) * | 2007-04-12 | 2014-10-14 | Nuance Communications, Inc. | Speech-enabled content navigation and control of a distributed multimodal browser |
KR20090084212A (ko) * | 2008-01-31 | 2009-08-05 | 포항공과대학교 산학협력단 | 멀티모달 대화 인터페이스를 이용하는 홈 네트워크 제어시스템 및 그 방법 |
US8589161B2 (en) * | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
WO2010019713A1 (en) * | 2008-08-12 | 2010-02-18 | Ditech Networks, Inc. | Voice activated application service architecture and delivery |
US8326637B2 (en) * | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
WO2010104825A1 (en) * | 2009-03-09 | 2010-09-16 | Telcordia Technologies, Inc. | Delivering media as compensation for cognitive deficits using labeled objects in surroundings |
KR101289081B1 (ko) * | 2009-09-10 | 2013-07-22 | 한국전자통신연구원 | 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법 |
US20110165917A1 (en) * | 2009-12-31 | 2011-07-07 | Mary Elizabeth Taylor | Methods and arrangements employing sensor-equipped smart phones |
US8381108B2 (en) * | 2010-06-21 | 2013-02-19 | Microsoft Corporation | Natural user input for driving interactive stories |
KR101387928B1 (ko) | 2010-06-24 | 2014-04-22 | 에스케이플래닛 주식회사 | 홈 미디어 디바이스 및 이를 이용한 홈 네트워크 시스템, 방법 |
JP6435257B2 (ja) * | 2012-03-29 | 2018-12-05 | ザ ユニバーシティ オブ クィーンズランド | 患者音を処理するための方法および装置 |
US10491458B2 (en) * | 2013-01-31 | 2019-11-26 | Dell Products L.P. | System and method for reporting peer-to-peer transfer events |
JP6433903B2 (ja) * | 2013-08-29 | 2018-12-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識方法及び音声認識装置 |
JP5629364B2 (ja) * | 2013-10-29 | 2014-11-19 | 株式会社コナミデジタルエンタテインメント | ゲーム装置、ゲーム装置の制御方法、及びプログラム |
JP2015153324A (ja) * | 2014-02-18 | 2015-08-24 | 株式会社Nttドコモ | 情報検索装置、情報検索方法及び情報検索プログラム |
KR20150136312A (ko) * | 2014-05-27 | 2015-12-07 | 삼성전자주식회사 | 디스플레이 장치 및 이의 정보 제공 방법 |
WO2016068262A1 (ja) * | 2014-10-29 | 2016-05-06 | 京セラ株式会社 | コミュニケーションロボット |
KR101733230B1 (ko) | 2015-05-21 | 2017-05-08 | 네이버 주식회사 | 컨텐츠 공유 서비스 제공 방법, 표시 제어 방법 및 컴퓨터 프로그램 |
US20160379638A1 (en) * | 2015-06-26 | 2016-12-29 | Amazon Technologies, Inc. | Input speech quality matching |
US9484030B1 (en) * | 2015-12-02 | 2016-11-01 | Amazon Technologies, Inc. | Audio triggered commands |
US9858927B2 (en) * | 2016-02-12 | 2018-01-02 | Amazon Technologies, Inc | Processing spoken commands to control distributed audio outputs |
US9898250B1 (en) * | 2016-02-12 | 2018-02-20 | Amazon Technologies, Inc. | Controlling distributed audio outputs to enable voice output |
US10261752B2 (en) * | 2016-08-02 | 2019-04-16 | Google Llc | Component libraries for voice interaction services |
US20180039478A1 (en) * | 2016-08-02 | 2018-02-08 | Google Inc. | Voice interaction services |
US10140973B1 (en) * | 2016-09-15 | 2018-11-27 | Amazon Technologies, Inc. | Text-to-speech processing using previously speech processed data |
US10170116B1 (en) * | 2016-09-21 | 2019-01-01 | Amazon Technologies, Inc. | Maintaining context for voice processes |
US9972318B1 (en) * | 2016-09-21 | 2018-05-15 | Amazon Technologies, Inc. | Interpreting voice commands |
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
US10276149B1 (en) * | 2016-12-21 | 2019-04-30 | Amazon Technologies, Inc. | Dynamic text-to-speech output |
KR101924852B1 (ko) * | 2017-04-14 | 2018-12-04 | 네이버 주식회사 | 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템 |
US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
-
2017
- 2017-04-14 KR KR1020170048304A patent/KR101924852B1/ko active IP Right Grant
-
2018
- 2018-02-20 WO PCT/KR2018/002075 patent/WO2018190507A1/ko active Application Filing
- 2018-04-12 JP JP2018076699A patent/JP6573696B2/ja active Active
-
2019
- 2019-10-10 US US16/598,449 patent/US11004452B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
KR101924852B1 (ko) | 2018-12-04 |
US11004452B2 (en) | 2021-05-11 |
US20200043491A1 (en) | 2020-02-06 |
WO2018190507A1 (ko) | 2018-10-18 |
JP2018180542A (ja) | 2018-11-15 |
KR20180115880A (ko) | 2018-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6573696B2 (ja) | ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム | |
KR102025391B1 (ko) | 사용자의 발화 위치에 따른 디바이스 제어 | |
JP6567727B2 (ja) | 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム | |
KR101949497B1 (ko) | 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템 | |
JP6752870B2 (ja) | 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム | |
KR102513297B1 (ko) | 전자 장치 및 전자 장치의 기능 실행 방법 | |
KR102209092B1 (ko) | 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템 | |
JP6607999B2 (ja) | 音声要請に対応する情報提供のためのメディア選択 | |
JP6947687B2 (ja) | 情報提供方法、電子機器、コンピュータプログラム及び記録媒体 | |
JP6681940B2 (ja) | ユーザの位置及び空間に適した情報を能動的に提供する方法及び装置 | |
JP6619488B2 (ja) | 人工知能機器における連続会話機能 | |
JP2019012506A (ja) | 機械の自動活性のための方法及びシステム | |
US20210295835A1 (en) | Method for controlling external device based on voice and electronic device thereof | |
KR101989127B1 (ko) | 번역 장치, 번역 방법 및 번역 컴퓨터 프로그램 | |
KR102161554B1 (ko) | 이어셋을 이용한 통역기능 제공 방법 및 장치 | |
US11743588B1 (en) | Object selection in computer vision | |
KR102255844B1 (ko) | 사용자의 위치 및 공간에 알맞은 정보를 능동적으로 제공하는 방법 및 장치 | |
KR20180129729A (ko) | 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템 | |
KR20200112791A (ko) | 이어셋을 이용한 통역기능 제공 방법 및 장치 | |
KR102241792B1 (ko) | 인공지능 기기에서의 연속 대화 기능 | |
US12111975B2 (en) | System and method for enhancing functionality of electronic devices | |
KR102152334B1 (ko) | 음원 필터링을 위한 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180412 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190604 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190716 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190813 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6573696 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |