CN1745409A - 为所应用的领域自动生成语音识别界面 - Google Patents

为所应用的领域自动生成语音识别界面 Download PDF

Info

Publication number
CN1745409A
CN1745409A CNA2003801093874A CN200380109387A CN1745409A CN 1745409 A CN1745409 A CN 1745409A CN A2003801093874 A CNA2003801093874 A CN A2003801093874A CN 200380109387 A CN200380109387 A CN 200380109387A CN 1745409 A CN1745409 A CN 1745409A
Authority
CN
China
Prior art keywords
grammer
application
model
revision
conceptual model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2003801093874A
Other languages
English (en)
Inventor
P·比松
C·塞多格波
O·格里斯瓦尔
C·劳迪
B·古戎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thales SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales SA filed Critical Thales SA
Publication of CN1745409A publication Critical patent/CN1745409A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

一种用于自动生成语音识别界面的设备包括用于图形记录概念模型的装置(1),推导装置(3),用于提供通用模型(2)的装置以及用于实行相关应用领域中的特定语法的装置(6)。

Description

为所应用的领域自动生成语音识别界面
本发明涉及一种用于为所应用的领域自动生成语音识别界面的通用方法,以及用于实现这种方法的设备。
语音识别界面尤其在操作者-系统交互系统中被使用,其是人机界面的特定情况。此类界面是这样一种装置,通过此装置,操作者可以访问系统或者机器中包括的功能。更具体地说,这种界面使操作者能够通过感知模态(perception modality)来评估系统的状态,并且使用动作模态(action modality)来修改这种状态。这种界面通常是操作者-系统交互时上行线路进行的考虑和设计工作、当研究用户和与其交互的系统之间的关系时作为约束而实施的结果。
例如计算机系统的人机界面的系统界面必须是自然的、有效的、智能的(能够自己适应环境)、可靠的、直观的(也就是说,易于理解和使用),换言之,尽可能“透明的”,以便使用户能够在没有因未落入其主要目标的活动而增加其工作量的情况下进行其工作。
通过使用为我们所熟知的信息交流渠道,诸如语音和打手势,所述语音界面更加是用户友好的并且是更加有效的。尽管如此,与传统的界面例如图形相比,实现它们更加复杂,这是因为它需要获取多种学科的知识,通常是高级的,并且需要开发复杂的过程来采用此知识以便“智能地”管理操作者和系统之间的对话。
目前,所述语音界面是“人工地”生成的,即,对于每个新的界面来说,所述界面的所有功能需要被重新研究,而无法使用任何帮助措施(例如状态机)来简化其实现方式。
本发明的目的在于提供一种依照最容易并且最简单的方式来自动生成语音界面的方法,并且所述方法花费尽可能短的开发时间并且成本最低。
本发明的另一目的在于提供一种用于实现此方法的设备,所述设备便于使用并且便宜。
依照本发明的方法的特征在于:输入所应用的语音界面领域的概念模型,生成表示应用分类的通用语法规则的集合,解释其限制得以满足的不同通用语法规则,根据所解释的通用语法并且根据所述概念模型来产生所涉及的应用领域的语法,并且管理操作者-系统的交互。
依照本发明的用于自动生成语音界面的设备包括概念模型输入装置、推导装置、用于提供通用模型的装置以及用于执行专用于所涉及的应用领域的语法的装置。
通过阅读实施例的详细说明,将会更好地理解本发明,把所述实施例作为非限制性的例子并且通过附图来示出,其中:
图1是由本发明实现的主要装置的框图,
图2是比图1更加详细的框图,以及
图3是图1和2的执行装置的详细框图。
图1示出了输入装置1,用于输入描述相关应用领域的概念模型的数据以及互连所述数据的关系。在把语音控制用于领航飞行器的情况下,所述数据例如可以是飞行器的所有设备以及所有功能的技术名词以及它们的不同的相互关系。
此外,语法规则的集合2被构造并且存储,以便形成表示应用分类的通用模型(对于先前提及的示例而言,这种分类往往涉及车辆的总体控制)。根据概念模型1和通用模型2,推导装置3自动地计算需要生成所期望的语音界面的资源集合,并且据此,推断在所涉及的应用环境中,由此界面可能处理的语言语句集合。
此外,本发明的设备包括修订装置4和解释装置5。所述修订装置4由操作者或者设备的设计者来监控。其功能在于修订由操作者使用装置1输入的数据,以便校正违背所涉及的应用的语义的词语,和/或添加新词语以便使所应用的领域的语法更丰富。所述解释装置5通过解释生成专用于所应用领域的语法时所应用的规则来简化由操作者输入的数据的修订。
执行装置6负责自动地生成所涉及的应用领域的语音界面。生成这种界面的方法依赖于取决于所述应用并且是特定资源(也就是说,组成经由装置1输入的概念模型的所有概念以及组成词汇的词语集合)的资源、与不取决于这种应用(通用资源,也就是说,语法的句法规则以及所有的基本词汇)并且是专用于所使用的语言的资源之间的区别。
为了实现这种方法,语音界面的设计者需要使用输入装置1来描述专用于所涉及的应用的资源,即概念模型以及这种应用的词汇。对所述设计者来说,这需要定义他希望能够通过语音来控制的应用的概念,然后用词语描述这些概念。这种输入工作可以通过使用所涉及的应用的形式模型而变得更为方便,如果这种模型存在并且是可利用的话。
当由此获取了专用于所述应用的资源时,全部自动操作的推导装置3使用这些特定资源以及由装置2提供的通用资源来计算所述应用的语音界面的语言学模型。这种语言学模型由专用于此界面的子语言的语法以及词汇组成。所述推导装置3还用于计算这种子语言的语句集合(也就是其措辞),以及涉及所述应用的所有知识,并且需要管理操作者-系统对话。
然后,由操作者使用所述修订装置4来显示对应于其输入工作的所有或者某些措辞,以便能够通过添加、删除或者修改来精炼这种措辞。为了帮助从事这种任务的操作者,用于生成解释的装置5能够自动地识别操作者输入的概念和词汇数据,由此,创立所生成的子语言的语句的给定特征或者语句集合。
最后,所述执行装置6形成当使用这种由此产生的语音界面时被启用的环境,以便确认这种界面。为此目的,所述执行装置使用由输入装置1和推导装置3提供的所有数据。
图2表示用于实现本发明方法的设备的示例性实施例。所述操作者具有输入界面7,诸如图形界面,用于输入所涉及的应用的概念模型8。他还具有包含应用的实体或者概念的数据库9,以及这种应用的词汇10。由此,所述概念模型包括应用的实体及其相互关联,即,链接应用概念的表述关系。概念模型的输入被设计为使用两个主要知识源的迭代和辅助过程,所述两个主要知识源是通用语法11以及基本词汇12。
实现所述推导装置3的一种方式在于:扩展句法以及语义语法,以便能够考虑概念上的限制。由此,能够在这种高级形式内定义通用语法,其适于经由操作者输入的数据来自动地适用于所应用领域。所述推导装置因此能用于计算专用于所应用领域的句法/语义语法以及词汇。由此,如图2中利用图表所示出的那样,所述设备使用由操作者输入的概念模型8来推断传输到所述推导装置13的语言学模型。此处应该注意的是,概念模型不仅用于计算语言学模型以及链接到它的子模型(用于识别的语言学模型、用于分析的语言学模型以及用于生成的语言学模型),而且还用于管理操作者-系统对话,以便根据所述应用的概念以及对象来执行每一件事情。
对于修订-解释装置14的修订功能来说,其可经由图形界面7来访问,以便输入所述应用的概念模型。他们使用语法生成器15,其计算对应于所输入的模型的语法,并且提供用于显示所有或者某些相应语句的机制。为此目的,所述语法生成器15包括用于分析语句的句法以及语义语法16,用于生成语句的语法17以及用于语音识别的语法18。
对于所述修订-解释装置14的解释功能来说,其基于由推导装置13执行的计算的形式分析,以便识别根据其创立这些语句的特征的数据。这些装置由操作者使用以便反复地设计其模型,同时检验将生成的语句是否准确地符合其期望。
图3详细示出了语音界面的执行装置6的示例性实施例。这些装置包括:
-语音识别设备19,用于使用由语言学模型自动推导的语法18;
-语句分析器20,其使用由所述推导装置13提供的语言学模型。它从句法上并且从语义上来检验所述语句的准确性;
-对话处理器21,用于使用由操作者输入的概念模型,以及所述应用的语言学实体的数据库9,其由操作者输入或者由应用22自动地构造;
-语句生成器23,用于使用由语言学模型自动推导出的语句生成语法17;
-语音合成设备24。
在当前的实例中,用于执行语音界面的元件19至21以及23、24的集合由多代理型系统25来管理。
现在,将使用非常简单的例子来解释输入装置、修订装置以及解释装置的实现方式。
A)输入装置
为了能够利用语音讲出电视频道(CHANNEL)、电视播送节目(PROGRAMME)、电影(MOVIE)、卡通(CARTOON)的概念,以及电视频道播放(PLAY)电视播送节目的事实,所述输入装置必须首先被用来描述涉及所述概念也就是被考虑的词汇。
首先,当编译词汇时,所述输入装置用来帮助语音界面的设计者。为此,提供了一种机制,对于特定词语(例如词汇的英语译本“movie(电影)”以及用于法语版本的“film(电影)”)而言,其对应于这种词语提供所有的变化形式(例如,唯一的以及多个通用名称或者动词的词形变化)。词汇的设计者因此只有从所有这些形成中选择那些他希望在语音界面中找到的。
然后,经由这些相同的输入装置来创建必须能够用语音讲出的概念。在当前的实例中,此意味着创建CHANNEL、PROGRAMME、MOVIE以及CARTOON实体,以及PLAY关系。把这些概念与词汇中的词语集合链接。由此,所述MOVIE概念将被链接到词语“movie”、“movies”、“film”以及“films”。这些链接可用于创建若干子句,所述子句由所述推导装置使用:
·entity([CARTOON,[cartoon]])
·entity([MOVIE,[movie]])
·entity([PROGRAMME,[programme]])
·entity([CHANNEL,[channel 5,cnn]])
·etc.
对于PLAY关系来说,必须解释涉及此关系的各方:电视播送频道以及节目。这产生了意欲供推导装置使用的另一类型的子句:
·functional_structure([PLAY,Subject(CHANNEL),DirectObject(PROGRAMME),[play]]).
然后,所述输入装置用于解释这些概念之间的若干额外的关系。例如,电影是电视播送节目的一种类型。这些关系的结果将用于创建由所述推导装置使用的其他子句:
·is_a(MOVIE,PROGRAMME)
·etc.
这些输入装置的提供主要是简化需要实现语音界面的特定资源的输入。实际上,这种输入很大程度上通过从经由图形界面提供的标准集合中选择某些标准来执行。由推导装置需要的资源文件(子句)根据所选标准集合的这种图形表示来被自动生成。这样能够使语音界面的设计者避免在资源文件中产生语法错误和遗漏。
B)修订装置
所述修订装置由语音界面的设计者使用,以便确认或者校正已经经由所述输入装置创建的概念模型。
修订过程的第一步在于显示对应于所述概念模型的所有或者某些措辞。
在当前的例子中,可以显示下列短语:
1)A movie
2)A cartoon
3)A movie plays Channel 5
4)etc
语句“a movie plays Channel 5”是不正确的。所述解释装置揭露:此错误来源于不正确定义PLAY关系的事实:
·functional_structure([PLAY,Subject(PROGRAMME),DirectObject(CHANNEL),[play]]).
PROGRAMME充当对象
而不是:
·functional_structure(PLAY,Subject(CHANNEL),DirectObject(PROGRAMME),[play])).
CHANNEL充当对象
所述修订装置由语音界面的设计者使用,以便显示此错误,并且用于修改概念模型以便校正它。
C)解释装置
所述解释装置的用途在于:识别并且描述概念模型的子集或者特征,其中所述概念模型的编译生成对应于特殊语句的子语法、对应于特殊语言学表达式的语句部分,或者对应于特殊语言学属性的表达式特征。
由此,所述解释装置能够使用户通过选择语句、表达式或者由语法生成的属性,来找到并且理解创立它的概念模型的子集或者特征。
然后,他可以通过重复所述过程来修改所述概念模型以便修改所述语句、表达式或者生成的属性,精炼所述概念模型以便获得所要求的语言的语法。
举例来说,在如下四个表达式中的单元实体和任务实体之间的关系中,使用多个的可能性取决于此关系的基数。
1.“the mission of the unit”
2.“the missions of the unit”
3.“the mission of the units”
4.“the missions of the units”
所讨论的关系通过如下概念规则来描述:
entity(unit,relationship(mission,X,Y)
如果X=1并且Y=1,那么只有表达式1.是语法允许的。如果X=1而Y=n,那么只有表达式1.和2.是语法所允许的。如果X=n而Y=1,那么只有表达式1.和3.是语法所允许的。最后,如果X=n并且Y=n,那么所有表达式都是语法允许的(n≥2)。
在此例子中,所述解释装置必须允许用户识别出概念规则的基数必须被修改以便获得对应于他希望其语言中包括的多个表达式的语法的事实。
所述解释装置的实施例在于基于语法编译方法来构造回溯分析法,其将能够从所述结果开始来找出得出此结果的概念规则,并且由此向用户描述它们。

Claims (7)

1.一种用于为所应用的领域自动生成语音识别界面的通用方法,其特征在于,输入所应用的语音界面领域的概念模型(1,7),生成表示应用分类的通用语法规则(11)的集合,解释其限制得以满足的不同通用语法规则,根据所解释的通用语法并且根据所述概念模型(13)来产生所涉及的应用领域(6)的语法,并且管理操作者-系统的交互。
2.如权利要求1所述的方法,其特征在于,修订所输入的数据,并且校正违背所涉及的应用的语义的词语。
3.如权利要求1或者2所述的方法,其特征在于,修订所输入的数据(4),并且添加新的词语以便丰富所应用领域的语法。
4.如先前任一项权利要求所述的方法,其特征在于,生成解释(5),用于解释当生成专用于所应用领域的语法时所应用的规则。
5.一种用于为所应用领域自动生成语音识别界面的设备,其特征在于,所述设备包括概念模型输入装置(1,7),推导装置(3,13),用于提供通用模型(2,11)的装置以及用于执行专用于所涉及的应用领域(6,15)的语法的装置。
6.如权利要求5所述的设备,其特征在于,所述设备还包括修订装置(4,14)。
7.如权利要求5或者6所述的设备,其特征在于,所述设备还包括解释装置(5,14)。
CNA2003801093874A 2002-12-31 2003-12-15 为所应用的领域自动生成语音识别界面 Pending CN1745409A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0216902A FR2849515B1 (fr) 2002-12-31 2002-12-31 Procede generique de production automatique d'interfaces de reconnaissance vocale pour un domaine d'application et dispositif de mise en oeuvre
FR02/16902 2002-12-31

Publications (1)

Publication Number Publication Date
CN1745409A true CN1745409A (zh) 2006-03-08

Family

ID=32480321

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2003801093874A Pending CN1745409A (zh) 2002-12-31 2003-12-15 为所应用的领域自动生成语音识别界面

Country Status (6)

Country Link
US (1) US20060089835A1 (zh)
EP (1) EP1588351A1 (zh)
CN (1) CN1745409A (zh)
AU (1) AU2003299231A1 (zh)
FR (1) FR2849515B1 (zh)
WO (1) WO2004059617A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329868B (zh) * 2008-07-31 2011-06-01 林超 一种针对地区语言使用偏好的语音识别优化系统及其方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2862780A1 (fr) * 2003-11-25 2005-05-27 Thales Sa Procede d'elaboration d'une grammaire specifique a un domaine a partir d'une grammaire sous-specifiee
FR2864646B1 (fr) * 2003-12-24 2006-04-21 Thales Sa Procede d'augmentation d'un modele de tache pour permettre la gestion de l'interaction homme-machine
US20080201148A1 (en) * 2007-02-15 2008-08-21 Adacel, Inc. System and method for generating and using an array of dynamic grammar
US8442826B2 (en) * 2009-06-10 2013-05-14 Microsoft Corporation Application-dependent information for recognition processing
EP2680599A1 (en) * 2012-06-29 2014-01-01 Thomson Licensing Provision of a personalized media content
US11100291B1 (en) 2015-03-13 2021-08-24 Soundhound, Inc. Semantic grammar extensibility within a software development framework

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5642519A (en) * 1994-04-29 1997-06-24 Sun Microsystems, Inc. Speech interpreter with a unified grammer compiler
US6173266B1 (en) * 1997-05-06 2001-01-09 Speechworks International, Inc. System and method for developing interactive speech applications
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6321198B1 (en) * 1999-02-23 2001-11-20 Unisys Corporation Apparatus for design and simulation of dialogue
US6434523B1 (en) * 1999-04-23 2002-08-13 Nuance Communications Creating and editing grammars for speech recognition graphically
US6985852B2 (en) * 2001-08-21 2006-01-10 Microsoft Corporation Method and apparatus for dynamic grammars and focused semantic parsing
FR2845174B1 (fr) * 2002-09-27 2005-04-08 Thales Sa Procede permettant de rendre l'interaction utilisateur-systeme independante de l'application et des medias d'interaction

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329868B (zh) * 2008-07-31 2011-06-01 林超 一种针对地区语言使用偏好的语音识别优化系统及其方法

Also Published As

Publication number Publication date
AU2003299231A1 (en) 2004-07-22
FR2849515A1 (fr) 2004-07-02
FR2849515B1 (fr) 2007-01-26
WO2004059617A1 (fr) 2004-07-15
US20060089835A1 (en) 2006-04-27
EP1588351A1 (fr) 2005-10-26

Similar Documents

Publication Publication Date Title
US6219831B1 (en) Device and method for converting computer programming languages
Kennedy et al. Telescoping languages: A system for automatic generation of domain languages
US7908598B2 (en) Automated creation of model and view code
US20040158820A1 (en) System for generating an application framework and components
Arnold et al. Programming by voice, VocalProgramming
Lee Building environment rule and analysis (BERA) language
CN1745409A (zh) 为所应用的领域自动生成语音识别界面
Ismail et al. ALIF editor for generating Arabic normalized lexicons
Fliedl et al. From OWL class and property labels to human understandable natural language
CN110727433B (zh) 一种多通道三维用户界面的生成方法
CN114444032A (zh) 自定义规则混淆代码的方法及装置
Bryant Scalable construction-based parsing and semantic analysis
GB2420638A (en) Method of substituting code fragments in Internal Representation
Boitet GETA's MT methodology and its current development towards personal networking communication and speech translation in the context of the UNL and C-STAR projects
Huet et al. Sanskrit linguistics web services
Lowden et al. The REMIT System for Paraphrasing Relational Query Expressions into Natural Language.
Rutle et al. Model-Driven software engineering in Practice: A content analysis software for health reform agreements
Alexandersson et al. Ends-based dialogue processing
Bakerally Towards automatic deployment of linked data platforms
Khelil et al. Building a syntactic-semantic interface for asemi-automatically generated TAG for arabic.
Alves et al. Grammar-centered development of vdm support
Wallis et al. Syntactic parsing as a knowledge acquisition problem
Ferreira et al. A model-based approach to information retrieval systems development
Strmecki et al. An Ontological Model for Generating Complete, Form-based, Business Web Applications
Dorodnykh et al. Transforming Concept Maps and Spreadsheet Data for Ontology Engineering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication