CN101952883B - 计算机执行的通过基于语音的用户界面与用户交互的方法 - Google Patents

计算机执行的通过基于语音的用户界面与用户交互的方法 Download PDF

Info

Publication number
CN101952883B
CN101952883B CN2009801062430A CN200980106243A CN101952883B CN 101952883 B CN101952883 B CN 101952883B CN 2009801062430 A CN2009801062430 A CN 2009801062430A CN 200980106243 A CN200980106243 A CN 200980106243A CN 101952883 B CN101952883 B CN 101952883B
Authority
CN
China
Prior art keywords
phrase
territory
project
user
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009801062430A
Other languages
English (en)
Other versions
CN101952883A (zh
Inventor
加勒特·魏因贝格
比克沙·罗摩克里希纳
本特·施密特-尼尔森
布雷特·A·哈沙姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN101952883A publication Critical patent/CN101952883A/zh
Application granted granted Critical
Publication of CN101952883B publication Critical patent/CN101952883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种计算机执行的、便于通过基于语音的用户界面进行用户交互的方法。该方法获取来自用户的、一个或更多个字的短语形式的口述式输入。该方法还使用多个不同的域确定所述短语是查询还是命令。如果所述短语为查询,该方法则从多个数据库中检索并展示相关项目。如果所述短语是命令,则执行操作。

Description

计算机执行的通过基于语音的用户界面与用户交互的方法
技术领域
本发明总体上涉及自动语音识别系统,更具体地涉及针对该系统的用户交互界面。
背景技术
使用自动语音识别(ASR)的应用需要基于语音的用户界面来与用户进行交互。一般地讲,用户可以使用口述式用户输入执行两类任务。第一种任务类型与利用查询的信息检索(IR)有关。在这种任务中,用户希望从存储在数据库中的大的项目集合(如互联网的网页)中检索项目,如文件、图片、唱片等。另一任务类型是针对支持语音的命令与控制。此处,用户希望进行一些操作。这两种任务都涉及将可能是用户所说的话的范围变窄。
在IR的情况下,通常通过如图1所示的对话来完成,其中竖轴表示时间。在图1中,用户101的步骤显示在左侧,系统102的步骤显示在右侧。系统具有某种根状态R 120。用户101提供口述式输入110,例如用来检索项目。口述式输入110被解释为与状态集合X 124有关,而不是与另一些状态集合Y和Z 123有关。作为响应,系统进入下一状态X0125,并或许对用户进行提示。
用户提供另外的输入110。例如,在基于语音的目的地输入系统中,在被允许说出目的地街道名称之前,用户可能首先需要选择国家,然后在单独的步骤中选择城市。过程124反复地、继续地使系统改变(126)状态128-129,直至交互完成,并检索到了相关项目127。
通常,每个系统状态具有有限的状态专用语法、词汇和/或语言模型,仅通过涉及有限状态机(FSM:finite-state machine)中的两个或更多个应用状态的遍历的多个步骤处理就可以获得状态(如128-129)。
如图2所示,面向命令的方法通常涉及“载体”短语,其中命令字与特定的修饰词(modifier word)和/或变量存在于相同的短语130中。系统将给出的载体短语的含义解释(122)为短语130中的修饰语和变量,并进入状态集合X 124。如果载体短语与例如状态X1129有关,则系统可以立即进入该状态,或者在进入该状态之前请求来自用户的确认132。使用口头的或物理的交互形态139可以完成用户部分133的确认或取消137。可以同前面一样重复过程124。
其它的方法也是常见的。例如,可以在没有命令的情况下说出变量,或者,命令可以启动对话状态,在该状态下仅变量是可用的。利用诸如短语“发现艺术家Vanilla Ice”中的载体词(carrier word)也可以完成搜索任务。然而,在各情况下,各状态的词汇、短语语法和/或语言模式都是固定的。
通常,这两个不同的界面彼此不兼容。也就是,IR界面不能处理命令,控制界面不能处理查询。
发明内容
语音界面需要以一个多或更多个字的短语形式的口述式输入。确定该短语是查询还是命令。如果该短语是查询,则从数据库中搜索由该短语所指定的相关项目,如该短语是命令则执行操作。
附图说明
图1为用于信息检索的、现有技术的基于语音的界面的框图;
图2为用于命令和控制的、现有技术的基于语音的界面的框图;
图3为根据本发明实施方式的口述式用户界面的框图;
图4为根据本发明实施方式的域的示意图;
图5为构建图4的域的过程的示意图;以及
图6为根据本发明实施方式的域结构示例的示意图。
具体实施方式
本发明的实施方式提供了一种通过基于语音的界面与用户交互的方法。任意的口述式输入要么与信息检索有关,要么与命令和控制有关,后者可以包括从菜单或功能的分级体系中进行选择。
与具有有限的词汇和语法的传统的口述式用户界面相比,我们的界面具有本质上不受限的词汇和语法。这意味着可以以任何顺序说出任何字词。这大大增强了口述式界面的操作的灵活性和有效性。
界面结构和操作
图3示出了根据本发明的实施方式的基于语音的用户界面。竖轴表示时间。用户101的操作在左边示出,系统102的操作在右边示出。
用户通过以一个或更多个字的短语的形式提供非结构化的(unstructured)或半结构化(semi-structured)的口述式输入133。不同于传统的界面,该输入既可以是查询又可以是命令。
除了命令字词以外,在命令短语中还可以包括变量或修饰语。也就是,该界面允许用户说任何话。
不是象传统的界面中那样进入有限状态机(FSM),诸如在美国专利6877001中所描述的,本系统使用基于语音的IR系统对该口述式输入进行一系列的多域查找和相关分析135,在此以引用的方式将该专利的全部内容合并于此。
口述式输入和任意下层索引以及数据库都可以使用如在同时待审的和相关的美国专利申请SN.12/036,681中所描述和示出的粒子(particle)。查找和相关的评分可以在各域中出现,与传统的命令和控制界面中的一样,这些域中的一些属于命令,而这些域中的其它域属于可搜索内容(如文件或音乐集)或导航系统中的兴趣点(POI)。
可以将应用的不同功能性区域(如音频/视频和导航)内的状态分开进行索引,以形成一个或更多个相区分开的命令域。
命令域和查询域
在命令域的情况下,由IR引擎检索到的“项目”为指向给定的FSM状态的指针,这些项目可以包括有关于由该状态和由可从该项目的状态到达的其它状态所预期的任何输入的信息。如果所需的输入没有包括针对命令项目的IR索引中,则可以通过对照传统的有限状态语法(FSG,其包括变量和/或修饰语的占位符)重新识别语音输入,或者通过提示用户进行额外的阐明输入来提取出该输入。
在内容域的情况下,检索到的“项目”为指向可搜索内容(如艺术家、相册、或音乐收集中的歌曲、或附近餐馆POI)的单独节点的指针。
系统确定口述式输入是查询还是命令(136)。如果最匹配的域为内容域,则向用户展示结果列表137,用户选择激活哪个内容项目(140)。如果输入短语为命令,则可以向用户展示最匹配的一个或更多个命令以进行确认,或者如果存在明确的最匹配命令,则可以立即进行执行(138)。如果需要,可以输入额外的短语来改进或完善命令或查询。
结果提示
可以以多种不同的方式向用户提示相关命令或相关项目。可以按域分开来自不同域的相关匹配,域每次以相同的顺序或者按照与给定的查询的相关度的降序出现。另选地,可以将来自所有域的匹配混合成合并的结果列表。
相关域确定
某一语音输入短语可能在多个域中的各域中得到匹配。为了确定输入短语的最相关的域,我们确定这些匹配中的哪一个最没有可能通过随机选取而被得到。该可能性可以常规地被计算出来。
图4示出了所有域中的项目I的集合406。在该集合中项目I的数目为T。子集I1,I2等表示来自域1,2等的项目,并且T1,T2等表示这些子集中各子集中的项目数。子集可以相互交叉,见子集407-408。
用户输入短语U检索N个项目,其中N1个项目来自子集I1,N2个项目来自子集I2,等等。为了确定这些检索的相关度,我们确定出概率
Figure BPA00001207206800041
也就是,如果我们要从集合I中随机地选出N个项目,则N1个项目来自子集D1
类似地,我们确定出概率
Figure BPA00001207206800042
也就是,如果我们要从集合I中随机地选出N个文件,则N2个属于子集I2。总的说,概率为从第i个域中得到的项目数也可以通过从集合I中随机选取N个文件来得到的概率。于是,针对输入短语U的域具有最小的概率
Figure BPA00001207206800044
Domain ( U ) = arg mi n i P i rand ( N i , N )
上述方法确定了哪个域最不可能被随机得到,并且将相应的域选择为该输入短语的最相关的域。此外,可以将附加的关于概率的阈值一起用于完全地拒绝输入短语。
上述方法的其它变型也是可能的,可以将随机选取N个文件的实际概率计算在内,或者使用公式内
Figure BPA00001207206800052
的上限或下限。
基于文件的域的构建
如在相关的美国专利申请中所表述的,可以通过对各项目进行索引来构建域中的项目。例如,项目为文本文件,诸如操作者手册510。该文件可以明确地或暗含地带有格式,并可以以可机读或可人读的形式而被提供。索引处理将文件分割为较小的段520,并识别可能由检索给定的段的用户所讲的词句(term)或短语。
有好几种使用文件结构(如章节标题和子章节)来识别这些词句的手段。可以针对整体和针对各章节,将对字词和短语的出现的统计进行汇编。可以按段对涉及文件整体的各个术语分配权重。这就使得能够识别出与IR的目的更相关的词句。
可以对非重要词句(如非常短或常用的字,如“该”)的手动或机器生成的“非用词表”进行合并。但是,如果非用词表上的术语被发现在某些段以很高的频率出现,而在其它段不这样,则将该术语从非用词表中移出并移到相关项目的列表。
可以在同义词词典中对出现在章节或子章节标题中的相关或有区别的术语进行查找,如果找到了,也将该同义词添加到针对给定的段的相关或有区别的项目列表中。
图6示出了用户输入133的分层形式的域的结构、一组搜索域610、一组命令域620和项目的各种子集,它们中的一些可以交叉。
尽管参照优选实施方式的示例描述了本发明,但应当理解,可以在本发明的精神和范围内作出的许多其它的适应和修改。因此,所附的权利要求的目的在于涵盖落入本发明的真正精神和范围内的所有这样的变型和修改。

Claims (7)

1.一种计算机执行的通过基于语音的用户界面与用户交互的方法,该方法包括如下步骤:
获取来自用户的一个或更多个字的短语形式的口述式输入;
使用多个不同的域确定所述短语是查询还是命令;
如果所述短语为查询,则从多个数据库中检索并展示相关项目;以及
如果所述短语是命令,则执行操作。
2.根据权利要求1所述的方法,其中如果所述短语是命令,则所述短语包括变量和修饰语。
3.根据权利要求1所述的方法,其中所述短语为粒子的形式,并且对所述项目的索引为粒子的形式。
4.根据权利要求1所述的方法,其中按域对所述相关项目进行分离。
5.根据权利要求1所述的方法,其中按照相关度的顺序来展示所述相关项目。
6.根据权利要求1所述的方法,其中将所述相关项目混合在合并的结果列表中。
7.根据权利要求1所述的方法,其中所有可能的项目形成项目集合,该方法还包括如下步骤:
将所述集合中的项目分组为项目子集,其中各项目子集形成所述多个域中的一个域;
响应于所述查询,从所述多个域中的一个或更多个域中检索所述项目;以及
如果检索到的项目最不可能通过从整个项目集合中进行随机选取而获得,则选择特定的域作为与所述查询最相关的域。
CN2009801062430A 2008-02-25 2009-02-25 计算机执行的通过基于语音的用户界面与用户交互的方法 Active CN101952883B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/036,713 2008-02-25
US12/036,713 US7917368B2 (en) 2008-02-25 2008-02-25 Method for interacting with users of speech recognition systems
PCT/JP2009/053998 WO2009107848A1 (en) 2008-02-25 2009-02-25 Computer implemented method for interacting with user via speech-based user interface

Publications (2)

Publication Number Publication Date
CN101952883A CN101952883A (zh) 2011-01-19
CN101952883B true CN101952883B (zh) 2012-03-21

Family

ID=40651523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801062430A Active CN101952883B (zh) 2008-02-25 2009-02-25 计算机执行的通过基于语音的用户界面与用户交互的方法

Country Status (5)

Country Link
US (1) US7917368B2 (zh)
EP (1) EP2245617B1 (zh)
JP (1) JP5111607B2 (zh)
CN (1) CN101952883B (zh)
WO (1) WO2009107848A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
EP2522692B1 (en) 2008-05-30 2014-06-18 3M Innovative Properties Company Ligand monomers and copolymers made therewith
WO2009146321A1 (en) 2008-05-30 2009-12-03 3M Innovative Properties Company Ligand functionalized substrates
JP2010160316A (ja) * 2009-01-08 2010-07-22 Alpine Electronics Inc 情報処理装置及びテキスト読み上げ方法
WO2010151447A1 (en) 2009-06-23 2010-12-29 3M Innovative Properties Company Functionalized nonwoven article
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8377672B2 (en) 2010-02-18 2013-02-19 3M Innovative Properties Company Ligand functionalized polymers
WO2011109151A1 (en) 2010-03-03 2011-09-09 3M Innovative Properties Company Ligand guanidinyl functionalized polymers
US8738377B2 (en) 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US8731939B1 (en) 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
US8924219B1 (en) * 2011-09-30 2014-12-30 Google Inc. Multi hotword robust continuous voice command detection in mobile devices
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
CN103116649B (zh) * 2013-02-28 2016-09-14 用友网络科技股份有限公司 数据分析系统和数据分析方法
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
US9472196B1 (en) 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
US9740751B1 (en) 2016-02-18 2017-08-22 Google Inc. Application keywords
US9922648B2 (en) 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US9691384B1 (en) 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
CN106653019B (zh) * 2016-12-07 2019-11-15 华南理工大学 一种基于用户注册信息的人机对话控制方法及系统
WO2020171545A1 (en) * 2019-02-19 2020-08-27 Samsung Electronics Co., Ltd. Electronic device and system for processing user input and method thereof
CN111081225B (zh) * 2019-12-31 2022-04-01 思必驰科技股份有限公司 技能语音唤醒方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0895396A2 (en) * 1997-07-03 1999-02-03 Texas Instruments Incorporated Spoken dialogue system for information access
CN1512402A (zh) * 2002-12-31 2004-07-14 程松林 一种语音检索方法及采用该方法的音像信息检索系统
WO2005024781A1 (en) * 2003-08-29 2005-03-17 Johnson Controls Technology Company System and method of operating a speech recognition system in a vehicle
CN1629934A (zh) * 2004-02-06 2005-06-22 刘新斌 一种用于交互控制的语音虚拟键盘的构建和使用方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089188B2 (en) * 2002-03-27 2006-08-08 Hewlett-Packard Development Company, L.P. Method to expand inputs for word or document searching
US6877001B2 (en) 2002-04-25 2005-04-05 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
JP2006338508A (ja) * 2005-06-03 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 関連コンテンツ探索装置及び方法
US8438024B2 (en) * 2007-10-05 2013-05-07 International Business Machines Corporation Indexing method for quick search of voice recognition results

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0895396A2 (en) * 1997-07-03 1999-02-03 Texas Instruments Incorporated Spoken dialogue system for information access
CN1512402A (zh) * 2002-12-31 2004-07-14 程松林 一种语音检索方法及采用该方法的音像信息检索系统
WO2005024781A1 (en) * 2003-08-29 2005-03-17 Johnson Controls Technology Company System and method of operating a speech recognition system in a vehicle
CN1629934A (zh) * 2004-02-06 2005-06-22 刘新斌 一种用于交互控制的语音虚拟键盘的构建和使用方法

Also Published As

Publication number Publication date
JP5111607B2 (ja) 2013-01-09
EP2245617A1 (en) 2010-11-03
WO2009107848A1 (en) 2009-09-03
JP2011505026A (ja) 2011-02-17
US7917368B2 (en) 2011-03-29
US20090216538A1 (en) 2009-08-27
EP2245617B1 (en) 2013-12-18
CN101952883A (zh) 2011-01-19

Similar Documents

Publication Publication Date Title
CN101952883B (zh) 计算机执行的通过基于语音的用户界面与用户交互的方法
KR101970047B1 (ko) 인공 지능을 기반으로 하는 검색 결과 플레이 방법과 장치
KR101913191B1 (ko) 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법
US8321427B2 (en) Method and apparatus for generation and augmentation of search terms from external and internal sources
KR102030078B1 (ko) 대화형 상호작용 시스템에서 서치 입력에서의 사용자 의도를 추론하는 방법 및 이를 위한 시스템
US10445359B2 (en) Method and system for classifying media content
US8311828B2 (en) Keyword spotting using a phoneme-sequence index
KR100816912B1 (ko) 문서검색 시스템 및 그 방법
EP2317507B1 (en) Corpus compilation for language model generation
US20070106685A1 (en) Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
US20060053101A1 (en) More efficient search algorithm (MESA) using alpha omega search strategy
CN102750949B (zh) 语音识别方法和装置
CN108922633A (zh) 一种疾病名称标准化规范方法及规范系统
US20070225970A1 (en) Multi-context voice recognition system for long item list searches
CN102549652A (zh) 信息检索装置、信息检索方法及导航系统
CN101952824A (zh) 计算机执行的对数据库中的文献进行索引和检索的方法以及信息检索系统
CN102968987A (zh) 一种语音识别方法及系统
CN106653006B (zh) 基于语音交互的搜索方法和装置
CN102289482A (zh) 一种非结构化数据查询方法
JP7098502B2 (ja) 報告書作成装置、方法、およびプログラム
JP3893893B2 (ja) ウエブページの音声検索方法、音声検索装置および音声検索プログラム
EP1876539A1 (en) Method and system for classifying media content
CA2483805A1 (en) System and methods for improving accuracy of speech recognition
US20210182338A1 (en) Retrieval system and voice recognition method thereof
CN113094496B (zh) 一种基于词条库的期刊热词排行榜设计方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant