JP4509039B2 - 音声対話インターフェース装置及び方法 - Google Patents
音声対話インターフェース装置及び方法 Download PDFInfo
- Publication number
- JP4509039B2 JP4509039B2 JP2006025544A JP2006025544A JP4509039B2 JP 4509039 B2 JP4509039 B2 JP 4509039B2 JP 2006025544 A JP2006025544 A JP 2006025544A JP 2006025544 A JP2006025544 A JP 2006025544A JP 4509039 B2 JP4509039 B2 JP 4509039B2
- Authority
- JP
- Japan
- Prior art keywords
- system response
- user
- action frame
- speech
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 31
- 230000004044 response Effects 0.000 claims description 68
- 230000009471 action Effects 0.000 claims description 55
- 230000003993 interaction Effects 0.000 claims description 37
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000007726 management method Methods 0.000 description 9
- 230000002452 interceptive effect Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- E—FIXED CONSTRUCTIONS
- E04—BUILDING
- E04G—SCAFFOLDING; FORMS; SHUTTERING; BUILDING IMPLEMENTS OR AIDS, OR THEIR USE; HANDLING BUILDING MATERIALS ON THE SITE; REPAIRING, BREAKING-UP OR OTHER WORK ON EXISTING BUILDINGS
- E04G21/00—Preparing, conveying, or working-up building materials or building elements in situ; Other devices or measures for constructional work
- E04G21/32—Safety or protective measures for persons during the construction of buildings
- E04G21/3204—Safety or protective measures for persons during the construction of buildings against falling down
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B63—SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
- B63C—LAUNCHING, HAULING-OUT, OR DRY-DOCKING OF VESSELS; LIFE-SAVING IN WATER; EQUIPMENT FOR DWELLING OR WORKING UNDER WATER; MEANS FOR SALVAGING OR SEARCHING FOR UNDERWATER OBJECTS
- B63C5/00—Equipment usable both on slipways and in dry docks
- B63C5/02—Stagings; Scaffolding; Shores or struts
-
- E—FIXED CONSTRUCTIONS
- E04—BUILDING
- E04G—SCAFFOLDING; FORMS; SHUTTERING; BUILDING IMPLEMENTS OR AIDS, OR THEIR USE; HANDLING BUILDING MATERIALS ON THE SITE; REPAIRING, BREAKING-UP OR OTHER WORK ON EXISTING BUILDINGS
- E04G7/00—Connections between parts of the scaffold
- E04G7/30—Scaffolding bars or members with non-detachably fixed coupling elements
- E04G7/32—Scaffolding bars or members with non-detachably fixed coupling elements with coupling elements using wedges
Landscapes
- Engineering & Computer Science (AREA)
- Architecture (AREA)
- Mechanical Engineering (AREA)
- Health & Medical Sciences (AREA)
- Structural Engineering (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Civil Engineering (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Ocean & Marine Engineering (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Description
例えば、解釈された言葉が特定機器を制御する制御命令である場合には、該当する機器を制御する動作を行うようにする(150)。このような動作を、以下では’サービス実行’と称する。
一方、前記音声対話インターフェース装置が対話処理(130)を行うに当って、プラン管理(140)を行わせうるが、それは、特定のサービスを実行するために要求される一連の細部動作を管理及び計画することを意味する。すなわち、前記音声対話インターフェース装置は、対話処理を行うとき、プラン管理によって状況に合うサービスを順に実行するように構成できる。
したがって、既設定された音声対話モデルによってユーザに応答する言葉を発生し(160)、発生した言葉を所定のディスプレイ装置を通じてユーザに知らせるか(180)、あるいは、前記応答する言葉を音声に変換する音声合成過程(170)を経て、スピーカを通じてユーザに知らせる。
まず、ユーザの音声から複数のキーワードを抽出し(210)、抽出されたキーワードリスト及び対話スクリプトDB 220に保存された対話パターン情報を利用して、パターンマッチング動作を行う(230)。マッチングするパターンが存在している場合には、該当する対話スクリプトを選択し、選択された対話スクリプトにあるテンプレートを利用して応答を生成する(240)。次いで、音声対話インターフェース装置は、生成された応答をユーザに伝達する。
図3は、有限状態モデルによる従来の音声対話モデルの一例を示す模式図である。
有限状態モデルにおいて、それぞれの状態で、音声対話インターフェース装置はユーザに質疑し、この質疑に対するユーザからの応答を解釈する。このとき、それぞれの状態において、音声対話インターフェイス装置は、それより以前の状態を認識した状態で処理を実行する。例えば、図3に図示された状態−4段階では、状態−1及び状態−2の結果を認識した状態でユーザとの対話が行われる。
図4は、フレーム基盤モデルによる従来の音声対話モデルを示す例示図である。
フレーム基盤モデルは、図4で図示したテーブル形態のフレーム400に基づいて音声対話を行う。
例えば、図4では、飛行機予約のためのフレーム基盤音声対話インターフェース装置におけるフレーム構造を示している。
図5は、プラン基盤モデルによる従来の音声対話モデルを示す例示図である。
プラン基盤モデルでは階層的なツリー構造を利用するが、この階層的なツリー構造では、ユーザの最終的な目的が最上位階層に位置し、その目的を達成するために必要な要素が下位階層に位置する。
プラン基盤モデルによる音声対話モデルについては、特許文献4に開示されている。前記のような音声対話インターフェースを行うための音声対話モデルのうち、図2に図示したパターンマッチングによる音声対話モデルは対話知識を構築しやすい一方、単純なパターンマッチングのみを行うために多様な対話処理が難しいという問題点がある。また、図5に図示したプラン基盤による音声対話モデルは多様な対話処理が可能な一方、多様な対話のためのぼう大な対話知識が構築されねばならないという問題点がある。そして、このように構築された対話知識の維持補修も容易でないという問題点がある。
本発明の目的は、以上で言及した目的に制限されず、言及されていない他の目的は下の記載から当業者に明確に理解されうる。
音声対話インターフェース装置600は、音声認識モジュール610、言葉解釈モジュール620、対話管理モジュール630、プラン管理モジュール650、サービス実行モジュール660及び音声合成モジュール670を含む。
また、対話管理モジュール630は、ユーザ意図解釈モジュール632、文脈復元モジュール634、ユーザ意図選択モジュール636、システム意図選択モジュール638、システム応答生成モジュール640、対話モデル保存モジュール642、ドメインアクションフレーム保存モジュール644及びバックオフ応答モデル保存モジュール646を含む。
まず、音声認識モジュール610は、サウンド信号からユーザの音声を認識する。このとき、音声認識モジュール610がユーザの音声を認識する方法は、従来の多様な音声認識アルゴリズムを利用できる。音声認識モジュール610により音声が認識されると、言葉解釈モジュール620は、認識された音声からテキスト文章を抽出し、抽出された文章からユーザが話した言葉を解釈する。このとき、同じ言葉でもユーザが話す状況により異なって解釈される。例えば、ユーザが単純に電源を消せという言葉を言う時、音声対話インターフェース装置はTVの電源を消せということなのか、オーディオの電源を消せということなのかが分からなくなる。したがって、言葉解釈モジュール620では、解釈可能なN個のセマンティック形式をユーザ意図解釈モジュール632に伝達し、ユーザ意図解釈モジュール632では、対話モデル保存モジュール642に保存された多様な形態の対話モデルを参照して、N個のセマンティック形式に対するユーザの対話意図を決定する。
ユーザ意図選択モジュール636は、最終的にN個のセマンティック形式からユーザの意図であると判断される1個のセマンティック形式を選択する。このとき、ユーザ意図選択モジュール636は、ドメインアクションフレーム保存モジュール644から選択されたセマンティック形式に該当するドメインアクションフレームを抽出して、システム意図選択モジュール638に伝達する。ここで、ドメインアクションフレーム保存モジュール644は、任意のドメインで提供するサービスを1つのノードとして把握し、各ノードが階層化されたツリー形態のデータ構造を持つように認識する。ここで’ドメイン’とは、例えば、音声対話インターフェース装置を利用して宅内にある家電機器を制御しようとする時、制御対象となるTV、冷蔵庫、DVDプレーヤー、オーディオなどをそれぞれ1つのドメインとして取扱う。そして、それぞれのドメイン、例えば、TVドメインでTVの電源をオンまたはオフにするか、チャンネルを変更するか、またはボリュームを調節することは、TVドメインで提供される’サービス’または’ドメインアクション’と見なしうる。図7では、ノード−1(710)に対するドメインアクションフレーム720と、ノード−2(730)に対するドメインアクションフレーム740とを例示している。例えば、ノード−1(710)に対するドメインアクションフレーム720は、チャンネルを設定するサービスを表す’ドメインアクション’フィールドと、チャンネル設定サービスのために必要なパラメータフィールド(’パラメータ1’フィールド及び’パラメータ2’フィールド)とを含んでいる。
図7で図示したドメインアクションフレーム720を例とすれば、ユーザがチャンネル設定のために、チャンネル設定しようとするデバイス及びチャンネル番号を話し、それを音声対話インターフェース装置600が認識した場合には、システムの意図は’Accept’となり、サービス実行モジュール660を動作させてデバイスのチャンネルを設定できる。サービス実行モジュール660がデバイスと直接連結されてチャンネルを設定するか、デバイスを制御する他のサーバを動作させてデバイスのチャンネルを設定することもできる。そして、’Accept’に該当する応答内容をシステム応答生成モジュール640に伝達し、音声合成モジュール670は、’Accept’に該当する応答内容を音声に変換してユーザに応答する。
すなわち、音声対話インターフェース装置600がユーザから音声を認識し(S810)、認識された音声から文章または単語を抽出して言葉を解釈した後(S820)、ユーザの意図を選択する(S830)。
もし、このとき、音声対話インターフェース装置600が応答しようとする内容のうち一部パラメータが欠けている場合には、システム応答生成モジュール640は、バックオフ応答モデル保存モジュール646を利用して応答を発生させる(S850)。バックオフ応答モデルについては、図9で説明する。
このとき、システム応答生成モジュール640は、応答する内容が図7に示すようなドメインアクションフレームに応答する内容のテンプレートが記述されているかどうかを検査して(S950)、もし、存在している場合には、該当する応答テンプレートを利用して応答を生成し(S960)、生成した応答を音声合成モジュール670に伝達する。しかし、もし、応答する内容のテンプレートが存在していない場合には、一般テンプレートを利用して応答を生成し(S970)、生成された応答を音声合成モジュール670に伝達する。このとき、システム応答生成モジュール640は、バックオフ応答モデル保存モジュール646を参照して一般テンプレートを得る。
すなわち、バックオフ応答モデルは、音声対話インターフェース装置600がユーザに対して応答する時、該当するドメインアクションフレームに応答テンプレートが存在していなくても、一般テンプレートを利用して応答を生成できるモデルを意味し、このようなモデルは、図7に図示された階層化されたツリー構造を利用して容易に行われうる。すなわち、それぞれのノードが上位階層へ行くほどさらに一般化された応答テンプレートを持つように設計することによって、例えば、任意のノードに対するドメインアクションフレームで応答テンプレートが存在していない場合、上位ノードに対するドメインアクションフレームから応答テンプレートを得ることができる。このようなツリー構造は、特定のドメインアクションに対するドメインアクションフレームの再使用性を高め、ユーザがさらに容易に対話知識を構築可能にする。
610 音声認識モジュール
620 言葉解釈モジュール
630 対話管理モジュール
636 ユーザ意図選択モジュール
638 システム意図選択モジュール
640 システム応答生成モジュール
644 ドメインアクションフレーム保存モジュール
646 バックオフ応答モデル保存モジュール
650 プラン管理モジュール
660 サービス実行モジュール
670 音声合成モジュール
Claims (12)
- サウンド信号から人間の音声を認識する音声認識モジュールと、
前記認識された音声から文章を抽出してユーザの意図を解釈するユーザ意図解釈モジュールと、
前記解釈されたユーザの意図及び所定のドメインアクションフレーム情報を利用してユーザの意図を選択するユーザ意図選択モジュールと、
前記選択されたユーザの意図に対応するシステム応答文章を生成するシステム応答生成モジュールと、
を含み、
前記ドメインアクションフレームは、ユーザが要請したサービス情報及び前記サービスを行うためのパラメータ情報を含み、それぞれのドメインアクションフレームは、上位階層へ行くほどさらに一般化されるように階層化されたツリー構造で構成され、
前記システム応答文書は、前記ドメインアクションフレームに設定され、
該当するシステム応答文章が前記ドメインアクションフレームに存在していない場合、前記システム応答生成モジュールは、前記階層化されたツリー構造で上位階層に存在しているドメインアクションフレームを参照してシステム応答文章を生成する音声対話インターフェース装置。 - 前記システム応答生成モジュールにより生成されたシステム応答文章を音声に変換してユーザに出力する音声合成モジュールをさらに含む請求項1に記載の音声対話インターフェース装置。
- 前記ユーザ意図選択モジュールにより選択されたユーザの意図によるサービスを行い、その結果を伝達するシステム意図選択モジュールをさらに含み、前記システム応答生成モジュールは、前記システム意図選択モジュールにより伝達される結果に対応するシステム応答文章を生成する請求項1に記載の音声対話インターフェース装置。
- 前記システム応答文章は、前記ドメインアクションフレームに設定される請求項3に記載の音声対話インターフェース装置。
- 該当するシステム応答文章が前記ドメインアクションフレームに存在していない場合、前記システム応答生成モジュールは、前記階層化されたツリー構造で上位階層に存在しているドメインアクションフレームを参照してシステム応答文章を生成する請求項4に記載の音声対話インターフェース装置。
- 前記システム応答生成モジュールにより生成されたシステム応答文章を音声に変換してユーザに出力する音声合成モジュールをさらに含む請求項3に記載の音声対話インターフェース装置。
- サウンド信号から人間の音声を認識するステップと、
前記認識された音声から文章を抽出してユーザの意図を解釈するステップと、
前記解釈されたユーザの意図及び所定のドメインアクションフレーム情報を利用してユーザの意図を選択するステップと、
前記選択されたユーザの意図に対応するシステム応答文章を生成するステップと、
を含み、
前記ドメインアクションフレームは、ユーザが要請したサービス情報及び前記サービスを行うためのパラメータ情報を含み、それぞれのドメインアクションフレームは、上位階層へ行くほどさらに一般化されるように階層化されたツリー構造で構成され、
前記システム応答文章は、前記ドメインアクションフレームに設定され、
該当するシステム応答文章が前記ドメインアクションフレームに存在していない場合、前記システム応答文章を生成ステップは、前記階層化されたツリー構造で上位階層に存在しているドメインアクションフレームを参照してシステム応答文章を生成する音声対話インターフェース方法。 - 前記生成モジュールにより生成されたシステム応答文章を音声に変換してユーザに出力する音声合成段階をさらに含む請求項7に記載の音声対話インターフェース方法。
- 前記システム応答生成段階は前記選択されたユーザの意図によるサービスを行い、その結果を伝達する段階と、前記伝えられた結果に対応するシステム応答文章を生成する段階と、
をさらに備える請求項7に記載の音声対話インターフェース方法。 - 前記システム応答文章は、前記ドメインアクションフレームに設定される請求項9に記載の音声対話インターフェース方法。
- 該当するシステム応答文章が前記ドメインアクションフレームに存在していない場合、前記システム応答生成モジュールは、前記階層化されたツリー構造で上位階層に存在しているドメインアクションフレームを参照してシステム応答文章を生成する段階を備える請求項10に記載の音声対話インターフェース方法。
- 前記生成されたシステム応答文章を音声に変換してユーザに出力する音声合成段階をさらに含む請求項9に記載の音声対話インターフェース方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050012361A KR100679043B1 (ko) | 2005-02-15 | 2005-02-15 | 음성 대화 인터페이스 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006227611A JP2006227611A (ja) | 2006-08-31 |
JP4509039B2 true JP4509039B2 (ja) | 2010-07-21 |
Family
ID=36816740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006025544A Expired - Fee Related JP4509039B2 (ja) | 2005-02-15 | 2006-02-02 | 音声対話インターフェース装置及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7725322B2 (ja) |
JP (1) | JP4509039B2 (ja) |
KR (1) | KR100679043B1 (ja) |
Families Citing this family (127)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8265939B2 (en) * | 2005-08-31 | 2012-09-11 | Nuance Communications, Inc. | Hierarchical methods and apparatus for extracting user intent from spoken utterances |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
KR100810500B1 (ko) * | 2005-12-08 | 2008-03-07 | 한국전자통신연구원 | 대화형 음성 인터페이스 시스템에서의 사용자 편의성증대 방법 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
KR100913130B1 (ko) * | 2006-09-29 | 2009-08-19 | 한국전자통신연구원 | 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치 |
US20090125299A1 (en) * | 2007-11-09 | 2009-05-14 | Jui-Chang Wang | Speech recognition system |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
KR101211796B1 (ko) * | 2009-12-16 | 2012-12-13 | 포항공과대학교 산학협력단 | 외국어 학습 장치 및 그 제공 방법 |
KR20110072847A (ko) * | 2009-12-23 | 2011-06-29 | 삼성전자주식회사 | 열려진 사용자 의도 처리를 위한 대화관리 시스템 및 방법 |
KR101649911B1 (ko) | 2010-01-04 | 2016-08-22 | 삼성전자 주식회사 | 확장 도메인을 이용한 대화 시스템 및 그 자연어 인식 방법 |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8515766B1 (en) * | 2011-09-30 | 2013-08-20 | Google Inc. | Voice application finding and user invoking applications related to a single entity |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) * | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US10276157B2 (en) | 2012-10-01 | 2019-04-30 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
CN103730117A (zh) * | 2012-10-12 | 2014-04-16 | 中兴通讯股份有限公司 | 一种自适应智能语音装置及方法 |
KR101709187B1 (ko) * | 2012-11-14 | 2017-02-23 | 한국전자통신연구원 | 계층적 대화 태스크 라이브러리를 이용한 이중 대화관리 기반 음성대화시스템 |
US20140149118A1 (en) * | 2012-11-28 | 2014-05-29 | Lg Electronics Inc. | Apparatus and method for driving electric device using speech recognition |
KR101565658B1 (ko) * | 2012-11-28 | 2015-11-04 | 포항공과대학교 산학협력단 | 기억 능력을 이용한 대화 관리 방법 및 장치 |
US9530405B2 (en) * | 2012-11-30 | 2016-12-27 | Mitsubishi Electric Corporation | Intention estimating device and intention estimating method |
US9558275B2 (en) | 2012-12-13 | 2017-01-31 | Microsoft Technology Licensing, Llc | Action broker |
KR102072826B1 (ko) * | 2013-01-31 | 2020-02-03 | 삼성전자주식회사 | 음성 인식 장치 및 응답 정보 제공 방법 |
US9607617B2 (en) * | 2013-04-02 | 2017-03-28 | Nuance Communications, Inc. | Concept cloud in smart phone applications |
US9110889B2 (en) * | 2013-04-23 | 2015-08-18 | Facebook, Inc. | Methods and systems for generation of flexible sentences in a social networking system |
US9606987B2 (en) | 2013-05-06 | 2017-03-28 | Facebook, Inc. | Methods and systems for generation of a translatable sentence syntax in a social networking system |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US9925402B2 (en) * | 2013-09-05 | 2018-03-27 | Hydrovent, Llc | Smoke elimination device |
US9721570B1 (en) * | 2013-12-17 | 2017-08-01 | Amazon Technologies, Inc. | Outcome-oriented dialogs on a speech recognition platform |
US9589564B2 (en) | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9812128B2 (en) * | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
WO2017083504A1 (en) * | 2015-11-12 | 2017-05-18 | Semantic Machines, Inc. | Interaction assistant |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9779735B2 (en) | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
AU2017100585B4 (en) * | 2016-06-09 | 2018-02-01 | Apple Inc. | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
JP7000671B2 (ja) * | 2016-10-05 | 2022-01-19 | 株式会社リコー | 情報処理システム、情報処理装置、及び情報処理方法 |
KR102241970B1 (ko) | 2016-11-07 | 2021-04-20 | 구글 엘엘씨 | 기록된 미디어 핫워드 트리거 억제 |
KR20180060328A (ko) | 2016-11-28 | 2018-06-07 | 삼성전자주식회사 | 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버 |
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
US10559309B2 (en) | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
WO2018195185A1 (en) | 2017-04-20 | 2018-10-25 | Google Llc | Multi-user authentication on a device |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US11081106B2 (en) * | 2017-08-25 | 2021-08-03 | Microsoft Technology Licensing, Llc | Contextual spoken language understanding in a spoken dialogue system |
WO2019161207A1 (en) * | 2018-02-15 | 2019-08-22 | DMAI, Inc. | System and method for conversational agent via adaptive caching of dialogue tree |
US11308312B2 (en) | 2018-02-15 | 2022-04-19 | DMAI, Inc. | System and method for reconstructing unoccupied 3D space |
KR102635811B1 (ko) * | 2018-03-19 | 2024-02-13 | 삼성전자 주식회사 | 사운드 데이터를 처리하는 시스템 및 시스템의 제어 방법 |
WO2019216876A1 (en) | 2018-05-07 | 2019-11-14 | Google Llc | Activation of remote devices in a networked system |
US10692496B2 (en) | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
US11222283B2 (en) | 2018-10-23 | 2022-01-11 | International Business Machines Corporation | Hierarchical conversational policy learning for sales strategy planning |
CN109326289B (zh) * | 2018-11-30 | 2021-10-22 | 深圳创维数字技术有限公司 | 免唤醒语音交互方法、装置、设备及存储介质 |
CN110008325B (zh) * | 2019-03-29 | 2020-02-07 | 海南中智信信息技术有限公司 | 一种基于商用对话系统的口语语言理解及改写方法 |
KR20210036169A (ko) | 2019-09-25 | 2021-04-02 | 현대자동차주식회사 | 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002197107A (ja) * | 2000-12-26 | 2002-07-12 | Victor Co Of Japan Ltd | 自然言語対話型システム |
JP2003256419A (ja) * | 2001-12-28 | 2003-09-12 | Fujitsu Ltd | 対話方法、対話装置、対話プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体 |
JP2004288018A (ja) * | 2003-03-24 | 2004-10-14 | Fujitsu Ltd | 対話制御システム及び方法 |
JP2005122718A (ja) * | 2003-09-24 | 2005-05-12 | Internatl Business Mach Corp <Ibm> | 音声ポートレットにグローバル・ナビゲーション情報を提供するためのシステムおよび方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB828701A (en) * | 1955-04-21 | 1960-02-24 | Monsanto Chemicals | Rust-inhibiting compositions and lubricants containing the same |
US3785975A (en) * | 1971-06-18 | 1974-01-15 | Gulf Research Development Co | Vapor space inhibited turbine oil |
US4304678A (en) * | 1978-09-11 | 1981-12-08 | Mobil Oil Corporation | Lubricant composition for reduction of fuel consumption in internal combustion engines |
US4741848A (en) * | 1986-03-13 | 1988-05-03 | The Lubrizol Corporation | Boron-containing compositions, and lubricants and fuels containing same |
US6604090B1 (en) | 1997-06-04 | 2003-08-05 | Nativeminds, Inc. | System and method for selecting responses to user input in an automated interface program |
US6044347A (en) * | 1997-08-05 | 2000-03-28 | Lucent Technologies Inc. | Methods and apparatus object-oriented rule-based dialogue management |
US6631346B1 (en) * | 1999-04-07 | 2003-10-07 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for natural language parsing using multiple passes and tags |
US6356869B1 (en) | 1999-04-30 | 2002-03-12 | Nortel Networks Limited | Method and apparatus for discourse management |
TW501046B (en) * | 1999-06-11 | 2002-09-01 | Ind Tech Res Inst | A portable dialogue manager |
US6513006B2 (en) * | 1999-08-26 | 2003-01-28 | Matsushita Electronic Industrial Co., Ltd. | Automatic control of household activity using speech recognition and natural language |
US6330537B1 (en) * | 1999-08-26 | 2001-12-11 | Matsushita Electric Industrial Co., Ltd. | Automatic filtering of TV contents using speech recognition and natural language |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
US7251595B2 (en) * | 2001-03-22 | 2007-07-31 | Nippon Telegraph And Telephone Corporation | Dialogue-type information providing apparatus, dialogue-type information providing processing method, and program and recording medium for the same |
US6786651B2 (en) | 2001-03-22 | 2004-09-07 | Primarion, Inc. | Optical interconnect structure, system and transceiver including the structure, and method of forming the same |
US20020198714A1 (en) * | 2001-06-26 | 2002-12-26 | Guojun Zhou | Statistical spoken dialog system |
US7019749B2 (en) * | 2001-12-28 | 2006-03-28 | Microsoft Corporation | Conversational interface agent |
-
2005
- 2005-02-15 KR KR1020050012361A patent/KR100679043B1/ko not_active IP Right Cessation
-
2006
- 2006-02-02 JP JP2006025544A patent/JP4509039B2/ja not_active Expired - Fee Related
- 2006-02-07 US US11/348,301 patent/US7725322B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002197107A (ja) * | 2000-12-26 | 2002-07-12 | Victor Co Of Japan Ltd | 自然言語対話型システム |
JP2003256419A (ja) * | 2001-12-28 | 2003-09-12 | Fujitsu Ltd | 対話方法、対話装置、対話プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体 |
JP2004288018A (ja) * | 2003-03-24 | 2004-10-14 | Fujitsu Ltd | 対話制御システム及び方法 |
JP2005122718A (ja) * | 2003-09-24 | 2005-05-12 | Internatl Business Mach Corp <Ibm> | 音声ポートレットにグローバル・ナビゲーション情報を提供するためのシステムおよび方法 |
Also Published As
Publication number | Publication date |
---|---|
US20060184370A1 (en) | 2006-08-17 |
US7725322B2 (en) | 2010-05-25 |
JP2006227611A (ja) | 2006-08-31 |
KR20060091469A (ko) | 2006-08-21 |
KR100679043B1 (ko) | 2007-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4509039B2 (ja) | 音声対話インターフェース装置及び方法 | |
US11437041B1 (en) | Speech interface device with caching component | |
US10803869B2 (en) | Voice enablement and disablement of speech processing functionality | |
JP6637848B2 (ja) | 音声認識装置及び方法と電子装置 | |
KR102309540B1 (ko) | 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법 | |
US20210358496A1 (en) | A voice assistant system for a vehicle cockpit system | |
JP4131978B2 (ja) | 音声認識機器制御装置 | |
US10838954B1 (en) | Identifying user content | |
JP6595912B2 (ja) | 既存の単一言語プロセスからマルチ言語プロセスを構築すること | |
JP2003263188A (ja) | 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体 | |
CN111916088B (zh) | 一种语音语料的生成方法、设备及计算机可读存储介质 | |
US11475878B2 (en) | Electronic device and operating method thereof | |
JP2005196134A (ja) | 音声対話システム及び方法並びに音声対話プログラム | |
KR20230002690A (ko) | 발화의 음성 인식 오류 교정 | |
EP4285358A1 (en) | Instantaneous learning in text-to-speech during dialog | |
JP2007033478A (ja) | マルチモーダル対話システム及びマルチモーダルアプリケーション生成ウィザード | |
KR101945190B1 (ko) | 음성인식 작동 시스템 및 방법 | |
US11699444B1 (en) | Speech recognition using multiple voice-enabled devices | |
Kos et al. | A speech-based distributed architecture platform for an intelligent ambience | |
US12125489B1 (en) | Speech recognition using multiple voice-enabled devices | |
JP2000330588A (ja) | 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体 | |
KR20240131133A (ko) | 전자 장치 및 이의 제어 방법 | |
JP2006023444A (ja) | 音声対話装置 | |
US11893984B1 (en) | Speech processing system | |
JP2005316247A (ja) | 音声対話システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090303 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090603 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100330 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100427 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4509039 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |