CN104380375A

CN104380375A - 用于从对话中提取信息的设备

Info

Publication number: CN104380375A
Application number: CN201380020374.3A
Authority: CN
Inventors: 亚历山大·魏贝尔
Original assignee: Facebook Inc
Current assignee: Meta Platforms Inc
Priority date: 2012-03-08
Filing date: 2013-03-04
Publication date: 2015-02-25
Anticipated expiration: 2033-03-04
Also published as: AU2013230453A1; EP2823478A2; US9257115B2; CA2872790C; MX340907B; US10318623B2; AU2016269531A1; US20170046326A1; IL234477A; JP2015516587A; US10606942B2; CN104380375B; EP2823478B1; KR20140142280A; US9514130B2; MX2014010795A; KR101689290B1; US20130238312A1; US20190251156A1; AU2016269531B2

Abstract

本发明公开了用于在两个讲话者之间的人与人的单语或者多语对话过程中提取信息的计算机实施的系统和方法。从第二讲话者的识别语音(或者其翻译)和/或第一讲话者的识别语音(或者其翻译)中提取信息。然后，将所提取的信息输入到存储在数据存储器的电子表格中。

Description

用于从对话中提取信息的设备

发明人：Alexander Waibel

优先权声明

本申请要求以下申请的权益：

(1)于2013年2月6日提交的题为“DEVICE FOR EXTRACTINGINFORMATION FROM A DIALOG(用于从对话提取信息的设备)”的美国专利申请序列号13/760,535；以及

(2)于2012年3月8日提交的题为“SPEECH TRANSLATIONDEVICE WITH INFORMATION EXTRACTION(具有信息提取的语音翻译设备)”的美国临时专利申请序列号61/608,334的权益，

通过引用将其全部内容结合在此。

背景技术

语言交流与翻译设备用作跨过(bridge，桥接)不懂彼此语言的两个(或者更多个)人之间的沟通障碍的目的。这涉及其中从下列项的组合来构造的在至少一种语音方向上的至少一个语音翻译系统的布置：(1)语音识别引擎(engine)，(2)机器翻译引擎，以及(3)输出生成界面，输出生成界面以其他语言形式将输出呈现给收听者(可通过合成语音、链接客户端上的输出文本、抬头显示器、投影仪、专用音频扬声器等来呈现该输出)。这种系统的目的是提供人与人通信，即，将由一个讲话者所表达的理念信息以另一种语言传输给收听者。公开语音翻译系统的现有专利参考包括：美国专利5,712,957、美国专利6,324,510、美国专利6,963,837、美国专利8,090,570、美国专利8,204,739、美国公开号2007/0271088、美国公开号2008/0120091以及美国公开号2011/0307241，通过引用将其全部内容结合在此。可替代地，已经提出了诸如用于数据录入的听写系统或者人机对话系统的用于记录保持的系统。然而，人-人对话通常已经包含以后用于记录保持或者数据录入可能需要的信息。

发明内容

存在其中在各种信息处理任务中进一步使用和处理在对话过程中传输的信息的许多情形。目前，通常，必须将这种信息输入、添加或者重新输入到人机界面的不同系统中，并且由此是不经济的和耗时的。然而，还可利用直接面向“收听”人-人会话的人机界面的识别对话信息。因此，本申请中提出的是一种集成的、组合的设计，其中，隐含地(implicitly)从人-人对话中提取信息。还可使用如在用于语言解释的目的的语音翻译器中所使用的人-人对话处理技术来帮助从跨语种和单语种对话中提取信息。本申请描述了在会话过程中可使用从两个(或者更多个)对话方的语音收集的信息来完善记录或者直接触发辅助服务的技术，从而节省时间并且避免不必要的干扰。因此，在一个一般性方面中，本申请公开了一种变成语音翻译设备的部件并且将其功能扩展至隐含地或者明确地通知和指导各种辅助性机器服务但作为人与人交流的附带结果(side effect，意外结果)的装置。这样做，节省了时间并且使信息收集更为有效和高效。

例如，在医疗任务中使用的语音翻译设备中，两个讲话者(医生和患者)可能正在讨论患者正在经历的疾病。在该对话过程中，医生可能询问问题，诸如：“你发烧吗”、“你头痛吗”、或者“你有过敏史吗”，这都属于诊断的一部分。并非将这些响应填入患者报告或者诊断中，也并非记下所得出的治疗，而是在人与人对话过程中，本发明的实施方式可用于自动生成这些报告。本发明的实施方式可通过将作为人-人对话的附带结果的信息提取到记录中来简化和统一工作流程，以提高知识型工作者的努力成果，或者允许将来自人-人对话的这种信息快速和有效地多模式(multimodal)传输到记录中，和/或在人-人交互过程中允许无缝地(seamlessly)补充对记录中的这种信息的校正的数据条目。

此外，该技术可基于人-人交互记录应用为后期编辑步骤。这种组合的人-人以及人机对话的一个重要方面是对错误的处理。并非所有的信息被正确地识别和翻译，或者随后被正确的提取和填入(fill，填写)到所期望的记录中。在这种情况下，人为干预是必需的以验证和校正所产生的记录。在某些实施方式中，可采用各种多模式错误修正技术来校正记录。

在另一个一般性方面中，本发明涉及用于解除在说第一语言的第一讲话者与说第二语言的第二讲话者之间的人与人对话的语音翻译过程中出现的歧义的系统和方法。当歧义被检测为语音识别或者翻译过程的一部分时，向参与者(例如，讲话者)发起消歧询问(query)。对消歧询问进行解析(parse，分析)，从而响应解除歧义并且允许语音翻译过程以更高的置信度继续进行。触摸屏显示器可被用于发起消歧询问和接收讲话者的响应。

附图说明

在本文中，通过结合下列附图的实施方式的方式来描述本发明的各种实施方式，其中：

图1-图5以及图7是根据本发明的各种实施方式的语音翻译设备的示图；以及

图6是根据本发明的各种实施方式的过程流信息提取模块的示图；

图8是根据本发明的各种实施方式的交互式消歧模块的过程流的流程图；

图9是根据本发明的各种实施方式的用于从人-人对话(双语、多语或单语)中提取、完善和校正信息的交互式用户界面的示图；以及

图10是根据本发明的各种实施方式的语音翻译设备的框图。

具体实施方式

图1是根据本发明的各种实施方式的具有信息提取的语音翻译设备12的示图。语音翻译设备12可以连续的和同步的翻译模式来操作，例如，连续地或者同时翻译来自两个(或者更多个)讲话者的每一个的语音。在图1中，示出了讲两种语言的两个讲话者(即，双向系统)，尽管该设备可被扩展成处理多个讲话者(例如，多个(3个或者更多个)讲话者系统)。在图1的实施方式中，来自讲语言1的讲话者1的输入语音(或者言语(utterance，发声))被输入到用于语言1的自动语音识别引擎(ASR 1)。例如，ASR 1使用传统的自动语音识别技术将为语言1的输入语音转换成为语言1的文本。从ASR 1输出的文本被输入到将为语言1的文本翻译成语言2的机器翻译引擎(MT 1)。然后，来自MT 1的所翻译的为语言2的讲话输出在文本显示器14(例如，计算机监视器、智能手机或其他便携式计算机上的显示器等)上和/或通过使用用于语言2的文本至语音合成器(TTS 2)以为语言2的语音输出。

同样，在另一方向上，来自讲语言2的讲话者2的输入语音被输入到用于语言2的自动语音识别引擎(ASR 2)。例如，ASR 2使用传统自动语音识别技术将为语言2的输入语音转换成为语言2的文本。从ASR 2输出的文本被输入到将为语言2的文本翻译成语言1的机器翻译引擎(MT2)。然后，来自MT 2的所翻译的为语言1的讲话输出在文本显示器14上和/或通过使用用于语言1的文本至语音合成器(TTS1)的扬声器16以为语言1的语音输出。再次，可根据允许多方和/或多语对话或者会议的应用和布局(deployment)添加另外的语言方向上的多个另外的布置。

此外，每个方向包括信息提取模块、用于语言1的IEM 1以及用于语言2的IEM 2。IEM 1接收从ASR 1输出的为语言1的文本，并且IEM 2接收从ASR 2输出的为语言2的文本。此外，在各种实施方式中，如图1所示，IEM 1还可接收来自MT 1的输出，并且IEM 2还可接收来自MT 2的输出。IEM被配置为从人与人对话中提取相关信息。

在一种实施方式中，IEM通过格式化和语法分析步骤(PARS)以通过语义语法(semantic grammar)解析来自ASR引擎(或者MT)的文本语句，来处理其来自相应ASR(或者MT)的相应文本输入。在各种实施方式中，IEM可使用Phoenix解析器对来自ASR引擎的文本进行解析。关于Phoenix解析器的更多细节，可在以下文件中找到：W.Ward,“Extracting Information in Spontaneous Speech”，Proceedings ofInternational Conference on Spoken Language，1994和W.Ward，“Understanding Spontaneous Speech:the Phoenix System”，Proceedings ofICASSP‘91，1991，通过引用将其全部内容结合在此。可替代地，如果仅提取特定可预测类型的信息(例如，名称，编号)，则更简单的布置可足够用于信息提取，诸如，类型标记器(class tagger)和文本处理模块或者命名实体(named entity)标记器。IEM可检测期望信息类型的出现并且将其转换成适用于进一步处理的内部表示。例如，在“我五十六岁了”的句子中，类型标记器的作用可以是检测数字(五十六)的出现并且文本处理器将字符串“五十六”转换成适用于进一步处理的数字条目“56”。

图6是示出根据各种实施方式的IEM的过程流的流程图。在步骤60，解析步骤可分配对应于所说句子的角色(role)或者语言行为(speech act)的语义帧，并且在步骤62，将该句子中的关键字(或者多个关键字)映射到该帧中的语义间隙(slot)。然后，在步骤64，可将语义帧和间隙复制到电子表格的适当条目中，其中，该表格随后制成结果报告(resultingreport)。优选地，表格28为语言1或者语言2。出于相同的讨论，假定是语言1，则表格28填充(populate)有来自讲语言1的讲话者1的识别词语和/或从语言2被翻译成语言1的来自讲话者2的翻译词语。该表格可以是存储在语音对话和提取系统12的数据存储器(诸如，远程或者本地数据库26，数据库26可存储在便携式语音对话系统12的主存储器(primarymemory)或者辅助存储器(secondary memory)中或者存储在远程计算机系统的数据存储器中的电子表格28。根据人-人交互(例如，医生或者患者)过程中的讲话者的角色，并且根据所应用的语法或者提取工具，则结果表格例如包含在使用信息记录之后用于诊断、治疗或者处方的探索。

在另一实施方式中，代替解析，IEM使用口语词(spoken term，口头词)检测或者关键字测定(spotting)(KWS)模块，其代替语义帧而仅提取关键字并且将其复制到该报告中。也可通过识别文本字符串中的名称或者类型的命名实体或者类型标记模块给出关键字函数。当在表格/报告中识别和填写命名实体(正确的名称，地址名称、药物、食品或者数值(体重、年龄、…)等)时特别有用。在提取用于诸如病患记录准备、医院登记、对灾难救援的难民登记等的需求的名称中，命名实体和数字表达起到重要作用。关于KWS模块的更多细节可在以下文件中找到：L.Ratinov和D.Roth，“Design Challenges and Misconceptions in Named EntityRecognition”，CoNLL(2009)以及J.R.Finkel、T.Grenager和C.Manning，“Incorporating Non-local Information into Information Extraction Systemsby Gibbs Sampling”，Proceedings of the 43rd Annual Meeting of theAssociation for Computational Linguistics(ACL 2005)，pp.363-370，以及美国专利8,204,739，通过引用将其全部内容结合在此。

在另一个实施方式中，IEM采用信息检索(IR)模块。如图2所示，IR模块IR1和IR2可从大型远程文件数据库中提取相关文件或者响应，包括万维网。IEM可经由无线(例如，WiFi)或者有线网络连接与万维网通信。以这种方式，IR模块IR1和IR2接收所转录的输入语句并且从与其相关的文件中检索相关文件或者字符串。IR模块IR1和IR2可通过诸如万维网、维基百科文章、帮助文件(Helpfiles)、宣传材料(promotional material)、产品供应(promotional material)等大型数据库执行搜索，以在用户(例如，讲话者之一或者另一用户)与另一人进行谈话时将相关文章或者指令呈现给用户。根据并且作为人人谈话的附带结果，可能性的应用是指令、相关广告、娱乐、笑话、新闻等的检索。特别地，该实施方式非常适用于较少结构化的人-人对话，其中，所期望的结果不是结构报告，而是相关信息。

图1和图2中所示的语音翻译设备12可被实施为具有执行对应各个模块(例如，ASR引擎、MT引擎、TTS单元以及IEM)的软件代码的一个或多个处理器的基于计算机的系统。例如，如下面结合图10所进一步描述的，随机存取存储器(RAM)212和/或非易失性存储器(例如，ROM)216可存储用于ASR引擎、MT引擎、TTS单元以及IEM的软件代码，并且应用处理器204可执行代码。在一种实施方式中，在图1和图2中所示的ASR引擎、MT引擎、TTS单元以及IEM可利用单个基于计算机的设备(诸如，个人电脑、膝上型电脑、平板电脑、智能手机等)来实施。尽管图1和图2中示出了两个麦克风18a、18b(每个讲话者一个麦克风)，然而，计算机设备可使两个(或者更多个)讲话者共用一个麦克风。文本输出可显示在计算机设备的监视器/显示器上和/或通过扬声器输出。在某些实施方式中，切换(toggle，触发)输入可用于在两个(或者更多个)讲话者之间切换。在其他实施方式中，语音翻译设备12可自动识别输入语言(例如，语言1或者语言2)，如在美国公开申请公开号2011/0307241中所描述的。根据各种实施方式，存储表格/报告的数据库可以是计算机设备的存储器的一部分或者可以是经由基于计算机的电子电话和/或数据网络上传数据的远程数据库。

在其他实施方式中，可使用分布式计算系统。例如，如图3所示，与讲话者1相关联的部件(例如，ASR 1、MT 1、TTS 2以及IEM 1)可以是一个计算机20(例如，智能电话、个人电脑、膝上型电脑等)，并且与讲话者2相关联的部件(例如，ASR 2、MT 2、TTS 1以及IEM 2)可以是另一计算机设备22。来自MT 1的输出可经由基于计算机的电话和/或数据网络24传输到讲话者2的计算机设备22，并且反之亦然，可在中央服务器上完成所有计算，并且讲话者1和2仅携带诸如智能电话或者平板电脑的输入/输出设备。在这种实施方式中，数据库26经由电子电话和/或数据网络可与讲话者的计算机通信。

如图4所示，还可通过多模式交互界面(MMII)来扩展本发明的各种实施方式。语音识别自动口语词检测或者语义解析(semantic parsing)非常不完美并且将偶尔丢失提取相关或者重要的信息。为了使报告和检索功能强健地并且高效地工作，在各种实施方式中可使用多模式交互以通过交互方式识别关键信息。MMII可包括用户通过其可与系统交互以将额外信息供应给系统的一种或多种方式(means，手段)。例如，讲话者的计算机设备32的显示器30可以是检测触摸屏显示器30的用户触摸(例如，通过手指或者手写笔)的触摸屏。在这种实施方式中，可在显示器30上显示来自讲话者(讲话者1)的识别语音的文本，并且通过敲击在显示器30上所示的适当关键字，讲话者(讲话者1)可识别在显示文本中的关键字。在其他实施方式中，讲话者(讲话者1)可使用触摸屏30和/或传统的计算机鼠标34或者键盘36在显示器30上拖拽关键词并且将其拖放至表格(其同时在显示器30上显示)中。此外，用户可通过口头输入校正(例如，口头提供词汇的正确拼写)来校正表格中的条目(例如，校正拼写)，通过设备32的麦克风38检测口头输入并且通过语音识别软件(例如，ASR1和MT1)处理口头输入以校正表格中的错误。

将信息从人与人对话转移至表格应理想上始终自动地完成，但是，多模式交互提供强健的从错误恢复的机制。在这种情况下，可识别两种不同类型的错误：遗漏和错误的信息。在遗漏的情况下，计算机设备(例如，图4中的计算机设备32)可具有(并执行)软件来提供多模式支持以输入正确信息。这包括将正确信息从语音转录(transcription)中拖拽到表格，和/或将正确信息直接键入/拼写/手写到表格中。在错误的情况下，可使用诸如在所公开的美国申请公开号2011/0307241以及专利5,712,957和5,855,000中所描述的多模式错误校正技术来校正错误信息，通过引用上述文件的全部内容结合在此。如上所述，用户可口头输入校正。此外，计算机设备32可具有能够检测用户的手势或者其他动作的手势识别功能(例如，照相机和视频处理软件)以指示或者校正表格中的错误或者确认表格中的数据的准确度。以这种方式，用户可手写、作手势、拼写、重拼、解释等来校正错误并且由正确信息替换错误。例如，还可使用单个对话来通过语音完成错误恢复(“你说的是John还是Joan”)。在图4中，触摸屏30被示出为显示来自MT 1的输出，但是，如上所述，其还可显示来自ASR 1的输出，特别是在如上所述的利用多模式转移和校正技术的实施方式中。

如上所述，系统可被多个讲话者使用。图5示出了具有分别说不同的语言的三个讲话者的这种实施方式。在具有分别说语言1、2和3的三个讲话者的该实例中，讲语言1的讲话者1的言语被翻译成语言2和3；讲语言2的讲话者2的言语被翻译成语言1和3；并且讲语言3的讲话者3的言语被翻译成语言1和2。该系统可以类似方式扩展至更多个讲话者、更多种语言和/或单语使用。此外，尽管在图5中，IEM被示出为接收来自ASR的输出，但IEM还可被连接至MT并接收来自MT的输出，在这种情况下，IEM也可从翻译中提取信息。

在各种实施方式中，本发明可提供：

·作为跨语言人-人对话的附带结果的隐含信息提取。

·作为单语人-人对话的附带结果的隐含信息提取(如下面进一步所描述的)。

·通过应用语义解析器的对人-人对话的信息提取。

·通过应用命名实体标记器、单词测定器或者口语词检测的对人-人对话的信息提取。

·通过应用信息检索来查找匹配文件的对人-人对话的信息提取。

·隐含信息提取扩展在人道主义和军事部署、难民登记、注册、统计信息收集、疾病爆发、医生-患者对话、分诊中的应用。

·隐含信息提用于广告、幽默、娱乐的应用。

·多模式表格填写和校正。通过触摸(敲击)、拖和放、交叉模式拼写、手写来校正和完善丢失条目以用于校正或者完善丢失信息。

·界面(interface)布局：语音翻译界面和表格一起填充到同一屏幕上。

o通过信息提取将信息自动填入(或者预填入)到表格中。如果预填入不正确，则交叉模式校正。

o提供可替代的直接输入，选择隐含的或者明确的表格填写。不同形式、手写、点击、重拼、拼写作为可替代的直接输入。

o从语音翻译界面共享并且上传报告。

·界面布局：语音翻译界面与表格一起被填充到同一屏幕和喜好列表上。

o除语音翻译和表格填写之外，指令和预配置短语的播放(playback)。

o拖和放、触摸以从语音翻译中转移信息。

o通过信息提取自动预填入信息。如果预填入不正确，则交叉模式校正。

o通过多模式校正提供错误恢复。通过手势校正以及补充模式校正信息来替换错误。

o从语音翻译界面共享并且上传报告。

o除表格填写之外，提供具有自由式(free)语音翻译的播放短语的混合。

图9示出了具有可填入人与人对话中的提取信息的数字表格的示例性用户界面89。例如，表格可存储在设备12的存储器26中并且具有表格94的界面89可在显示器14上显示。左侧是两个字段(field，区段)90、92-在该实例中，一个字段位于另一字段上方-其示出了所翻译的语音。该实例假定了英语-西班牙语翻译情景。如果讲话者1说英语，则在字段90中文本地示出说英语的讲话者1的识别语音，并且在字段92中文本地示出西班牙语译文。同样，如果讲话者2说西班牙语，则在字段92中文本地示出说西班牙语的讲话者2的识别语音，并且在字段90中文本地示出英语译文。随着两个讲话者之间的对话的进行，字段90、92可示出两个讲话者的识别语音及其译文。此外，设备扬声器16可听见地输出所翻译的语音，因此，另一讲话者可以其优选的语言听见该语音。例如，继续上述其中讲话者1说英语并且讲话者2说西班牙语的相同实例，设备扬声器16可出于讲话者2的利益输出讲话者1的言语的西班牙语译文，并且相反地可出于讲话者1的利益输出讲话者2的言语的英文译文。用户可通过语言选择输入91a-b选择所期望的第一语言和第二语言。

在图9至图10的实例中，通过人-人对话来填入的表格94是医疗数据表格。例如，这种表格可用于医生-患者对话中。因此，从该对话中提取医疗相关的信息填入或者填充表格94的各个字段。在字段90、92中示出了通过语音翻译来传达(mediate)的人-人(例如，医生-患者)对话。此外，当关键信息(例如，有关或者适用于表格94的信息)以任一语言(即，在该实例中，为英语或者西班牙语)呈现时，它被提取并预填入到表格94的适用字段中。例如，医生可以语言1(例如，英语)询问“你多大了？”患者可以语言2(例如，西班牙语)回答“我50岁了(Tengo 50)”(其翻译成英语“我五十岁了”)。此处，可从对话中提取关键信息“50”并且填入到表格的年龄字段96中。而且，例如“你多大了？”的问题的上下文(context)可被设备使用以确认患者的回答将包括被填入在年龄字段96中的年龄。以类似的方式，医生-患者对话可被用于填充表格的其他字段，诸如，姓名字段98、100，性别字段102，体重字段104，妊娠检查字段106，过敏字段108等。

在各种实施方式中，表格还支持除语音提取之外的其他模式的数据输入。例如，通过触摸屏界面14，例如，如果用户(例如，医生)能够在不进行问答对话的情况下确定患者的性别，则医生可直接点击表格中的“男”和“女”字段。同样，如果患者是男性，则可自动填充“不怀孕”响应或者可去除或修改这个和其他相关的问题，从而消除不相关或者多余的问题。

此外，在各种实施方式中，替代讲话者1以语言1表述(enunciate)与表格中的其中一个字段相关的问题，例如，以英语询问“你多大了？”，用户可激活(例如，经由触摸屏界面)图标，例如，“询问”输入110，该图标在被激活时使设备12以所选择的第二语言(在该实例中，为西班牙语，参见语言选择输入91)可听见地输出被设计成引出针对相关字段(例如，年龄字段96)的信息的预记录问题。例如，通过激活与年龄字段96相关联的“询问”输入100，设备12可以可听见地输出诸如“es suedad？”(为西班牙语的“你多大了”)的问题，而无需用户首先以语言1(例如，英语)表述该问题。如图9中的实例所示，表格94中的其他字段可具有相关联的“询问”按钮(其使设备12可听见地输出被设计成引出针对其相关联字段的期望信息的预记录问题)。使用预记录的问题可通过消除讲话者1(例如，医生)首先以讲话者1的语言表述相关问题的需要来加快对话(在重复性任务和/或对话中特别有用)。而且，用于“询问”按钮的预记录问题可被适配成所选择的语言以避免混淆和模糊讲话者2(例如，患者)。即，可检查和证实预记录的问题以便以语言2具有较少的混淆和歧义，以从而增加来自讲话者2的准确响应以及设备12的准确提取的可能性。

同样，在各种实施方式中，界面89可提供按钮或者输入(未示出)，当按钮或者输入被用户激活时，预记录的指示性或说明性信息-与问题相对-以语言2(例如，西班牙语)被表述给讲话者2(例如，患者)。例如，这种预记录的示例性信息可说明对患者程序的一个方面。例如，代替医生(例如，讲话者1)以英语说“现在我要检查你的血压”并且然后将该问题翻译成语言2(例如，西班牙语)，医生可仅激活用于血压的相关联的告知(tell)按钮，在这种情况下，设备可以可听见地输出“Ahora voy a revisarsu presión arterial”(西班牙语“现在我要检查你的血压”)，从而消除了医生首先以语言1使说明可听化并随后将其翻译成语言2的需要。预记录的问题和说明可节省时间和精力，特别是在诸如患者的个人数据(姓名、年龄等)或者生命体征的收集的重复性询问过程中。

在其他实施方式中，代替具有预记录的问题和答案，设备12可使用语音翻译/对话系统的功能来合成地(synthetically，综合地)以多语言产生问题和/或答案。例如，用户可以语言1将他/她自身的问题或者说明键入到用于表格94的各个字段的表格询问字段中，从而经由语音或者文本输入和存储在设备12中。设备12可如上所述的将该输入翻译成语言2并且根据需要以L1、L2或者任何其他语言产生用于重复性播放的合成口语询问。因此，系统的用户能够在不需要任何其他语言的语言能力的情况下出于其目的定制由设备产生的任何消息或者询问。

当然，图9仅是医疗数据表格的一个实例，并且可使用具有不同的和/或另外的数据字段的不同的表格。此外，可使用除医疗数据表格之外的其他用途。

应注意，来自人人对话的信息的提取并非总是准确或者正确的。在各种实施方式中，设备12可提供用于修正或者校正表格中的信息的方式。这些方式可不同于语音提取，即，其他输入模式(例如，允许对表格的多模式输入)。例如，用户(例如，讲话者1)使用触摸屏界面14可通过触摸和拖拽手势或者输入将信息从字段90、92中的任一字段拖到表格94中的适当字段。

可替代地或者此外，在其他实施方式中，可使用不同模式的表格校正或者数据输入。例如，在各种实施方式中，用户(例如，医生)可点击或者不然选择表格94中的提取数据以对表格中的数据进行编辑。例如，在各种实施方式中，用户可键盘(包括触摸屏键盘)通过重说用于语音提取的数据、通过在触摸屏界面14上的手写手势或者通过任何其他合适的方式来编辑(或者删除)所选择的数据。同样，如上所述，在不明确地询问有关表格94的问题的情况下，可独立输入信息。例如，医生可看到患者是女性，并且仅直接点击或者键入表格94上的信息，从而在此阶段绕过人-人对话。在这种情况下，用户(例如，讲话者1)可选择直接按压(pushon)字段并且激活任一语言的语音识别以直接输入信息。可替代地，可键入或者拼写或者手写用于表格94中的字段的信息。美国专利5,712,957和5,855,000(通过引用将其全部内容结合在此)提供了关于各种多模式校正技术的细节。

图10是根据本发明的各种实施方式的设备12的框图。在这种实施方式中，设备12例如可被实施为智能便携式设备，诸如，膝上型电脑、智能电话或者平板电脑。如图10的实例所示，设备12可包括多个处理器202、204。基带处理器202可处理根据任何合适的通信技术(例如，3G、4G等)的经由移动电信网络(例如，蜂窝网络)的通信。基带处理器202可包括专用随机存取存储器(RAM)214。在各种实施方式中，基带处理器202可与收发器206通信。随后，收发器206可与一个或多个功率放大器208和天线210通信。移动电信网络的输出(outgoing)信号可在基带被基带处理器202处理并且被提供至收发器206。收发器206和/或基带处理器206可将输出信号调制到载波频率。一个或多个放大器208可放大输出信号，该输出信号随后经由天线210发射。移动通信网络的输入(incoming，进入)信号可通过天线210接收，通过一个或多个放大器208放大并且提供至收发器206。收发器206或基带处理器202可将输入信号解调到基带。

应用处理器204可执行操作系统以及软件应用程序，包括本文中所描述的语音识别和翻译模块(例如，ASR、MT、图1中所示的TTS和IEM模块)。应用处理器204还可执行用于触摸屏界面232的软件，包括用于输入和校正在触摸屏界面232上显示的表格94中所示的数据的技术。应用处理器204也可与应用RAM 212和非易失性数据存储器(例如，ROM)216通信。此外，应用处理器204可另外与诸如组合的WI-FI/蓝牙收发器218的其他硬件设备通信。WI-FI/蓝牙收发器218可处理与LAN的射频(RF)通信(例如，根据WI-FI标准、或者任何合适的标准)或者(例如，根据蓝牙标准或者任何合适的标准)处理设备200与另一无线设备之间的直接RF通信。在各种实施方式中，设备200还可包括全球定位系统(GPS)222，其经由GPS天线223与基于卫星的GPS系统通信以为应用处理器204提供描述设备200的地理位置的信息。触摸屏232既可以可视形式提供对设备12的用户的输出，又可接收来自用户的输入。输入可以是表示用户的屏幕触摸的信号的形式。音频编解码器模块224可提供用于解码和播放音频信号的硬件和/或软件。在某些实施方式中，编解码器224还可包括数模转换器。音频输出信号可被提供至设备扬声器16和/或可接收一组耳机的插口和/或用于播放音频输出信号的扬声器。可经由设备麦克风18提供音频输入信号。设备还可包括数码相机240。

在特定实施方式中，可包括各种其他传感器。磁传感器226可感测设备附近的磁场。例如，各种应用程序和/或系统功能可使用磁传感器226来实现罗盘(compass)。加速计(accelerometer)228和陀螺仪230可提供描述设备的运动的数据。例如，来自加速计228和陀螺仪230的数据可用于确定触摸屏232的显示器的方位(例如，纵向对比横向)。设备200可由电池234供电，电池234反过来可由电源管理集成电路(PMIC)236来管理。例如，I/O收发器238可根据通用串行总线(USB)或者任何其他合适的标准管理设备与其他设备之间的有线通信。连接器239可方便有线连接。在某些实施方式中，经由连接器239和I/O收发器238的连接可提供用于为电池234充电的电源。

返回图9中的实例表格，可使用其他数据输入形式来添加或者确认所提取的信息，诸如，GPS信息(经由GPS接收器222)、照相机输入(经由照相机240)、加速计228、条形码读取器(例如，经由运行在设备上的条形码应用程序或者作为设备一部分的独立硬件条形码读取器)等，从而获得诸如性别或者个人身份、位置等的信息。这可补充语音对话以自动填入信息中，并且由此提高效率。补充信息还可提高所提取的信息的准确性或者交叉验证给定的信息。例如，来自语音的自动性别分类可与医生的意见或者点击一起预填入性别字段102。或者可以通过照相机面部识别或者讲话者身份验证或者条形码读取来验证姓名。

在各种实施方式中，可通过使用声学置信度的置信度测量以及确认所提取的信息的可信度的补充信息来确定有疑问的信息。例如，可诸如通过突出显示(highlight)的方式来调出表格中有疑问的信息。例如，医生可直接输入患者的性别，但是，如果声学置信度和讲话者/性别ID建议该信息可能是错误的，则置信度测量可突出显示该信息。可突出显示或者不然调出表格中以及语音翻译对话框的文本中的低置信度信息。可通过对非规范用语(OOV)项、声学、语义以及翻译歧义的检测，得出其他低置信度源。低置信度区可被突出显示并且被模糊地解释(类似的词，可替代的含义、丢失的单词等)

在图9的实例中，以英语完成表格94。设备12的用户可通过激活表格语言输入115在语言1(例如，英语)与语言2(例如，西班牙语)之间来回切换。当激活输入115时，表格94可从显示为语言1(在该实例中，为英语)转换成语言2(在该实例中，西班牙语)，并且反之亦然，当二次激活输入115时，执行上述操作。以这种方式，讲话者1(例如，医生)可以语言1(例如，英语)查看表格的每个方面(标签、询问、内容等)，并然后将表格转换成语言2(例如，西班牙语)以通过讲话者2(例如，患者)进行确认和/或验证。注意，在各种实施方式中，所有信息、表格条目的名称、正在输入的内容、要被回放的自动消息、按钮和指令的说明以及名称可通过系统的语音和翻译功能来产生并且可根据需要在各语言之间进行切换。

此外，在各种实施方式中，语音翻译设备12允许以其多种语言来定义表格，而无需用户或者参与者了解其他语言。例如，从英文的模板表格中(例如，诸如Excel的电子表格)可读取该表格并且生成表格(如图9的实例所示)。参与者(诸如，在我们的实例中，为医生)可根据需要编辑模板表格来添加问题或者意见，然后，将该新的/经修改的表格读取到设备中。然后，语音翻译部件自动生成每个表格标签的翻译、表格消息、并且随后还(在使用过程中)生成提取信息，并且可以每种语言产生合成语音发声。

此外，例如，经由收发器206或者收发器218，设备12能够通过电子邮件或上传的电子版患者记录来共享已完成或者未完成的表格(存储在数据库26中)，从而从移动便携式设备实现在中央数据库中的信息记录的不断的和即时的更新。在各种实施方式中，用户可通过激活共享图标116发起该表格的这种无线传输或者上传。上传/传输的表格可/不可包括实际对话数据以及相关的多模式用户交互、询问以及编辑，因此提供关于整个人-人相遇(encounter)和交互的粒度(granular)信息。

在各种实施方式中，设备可在同步的和连续的翻译模式下操作(例如，翻译语音并且提取可填充表格的信息)。在同步模式下，设备实时地使用正在进行的连续对话的转录和翻译，而不使用按钮或者其他输入来在讲话者之间切换，并且不需要等待翻译完成。在这种情况下，设备将相关和有关的信息提取到如上的表格中并且错误校正执行相同操作。在连续翻译模式下，讲话者轮流讲话并且连续讲话。讲话者可使用设备(诸如，触摸屏界面14上)上的按钮或者其他输入从一个翻译信道(例如，从语言1翻译成语言2)转换成另一信道(例如，从语言2翻译成语言1)。为了方便用户，界面可选择性地启用或者禁用语音翻译和/或表格窗口。

此外，如图7中的实例所示，在各种实施方式中，设备可包括并且执行用于交互式消歧的软件，例如，交互式消歧模块40，凭借其，如果察觉歧义或者错误，设备12使用交互式消歧模块40假定发起并且提议对可能的错误和几近失误(near miss)的反馈。在各种实施方式中，这可能发生在两个层面(level)上：识别和翻译层面。在识别层面上，如果(通过ASR模块1或者2所确定的，视情况而定)识别为低置信度，或者如果所识别的文本与在所期望的表格的层面上所预期的冲突或者不匹配，则交互式消歧模块40可诸如可听见地经由内部扬声器16和/或可视地经由文本显示器14将询问发回给用户。由于过多的消歧询问可能惹恼用户，所以应优选认真地选择请求澄清(clarification)的时间和时刻。在各种实施方式中，可使用评估识别假设的置信度或者真实性的若干标准：

·如果声学信号很可能是被识别的语句而建立的声学置信度得分。

·要被填充的表格的上下文或者所提取的信息的真实性。如果在要被填充的表格的层面，讲话者目前正在讨论本周的约会日期，则“我们在星期二见面”相比“我们见面和他是谁？”更加可能。因此，如果存在符合表格中共同选项的模糊词汇(例如“星期二”)，则应当质疑“我们见面和他是谁”的识别假设。

·由来自其他讲话者(以他们的语言)的言语的翻译给出的语言上下文也能够以预期为条件并且由此质疑或者更改识别假设。在上述实例中，如果其他讲话者以西班牙语说“cuando se han encontrado”，则该情景翻译成英语“你们什么时候见的面”提供了提升“星期二”而非“他是谁？”的假设的可能性的语言建模上下文(modeling context)。

三种置信度测量可用于决定何时请求来自用户的消歧。在各种实施方式中，这些标准的一种或者多种被组合成一种置信度或者澄清得分。然后，可发起消歧询问以征求澄清。

在翻译层面，在各种实施方式中，如果(a)若干种输出翻译是可能的并且具有相似的可能性(存在位于最高得分翻译的阈值得分差异之内的至少一种其他翻译)，或者如果(b)存在一种更为可能的输出(例如，在最高得分输出翻译的阈值得分差异之内不存在可替代的输出翻译)，最高得分输出以目标语言具有低置信度并且可能是错的，则交互式消歧模块40可基于来自MT引擎(例如，MT 1或者2)的输入请求消歧。在后者情况(b)中，可以他/她的(源)语言将询问发回给用户，从而更改讲话者的可能问题并且为了清晰起见请求重述或者解释。在前者情况(a)中，需要考虑两种或者更多种可替代的情况。在这种情况下，系统可呈现给用户以源语言嵌入载体句子中的这两种情况(其以目标语言消除两种单词的使用的歧义)。例如，如果用户以英语说下列句子—“这是我的指甲”—则单词“指甲”是有歧义的并且可能被翻译成如“clavo”或如的西班牙语。如果两种结果的翻译可能性在真实性阈值范围内是可比较的，则系统可请求来自用户的消歧。在各种实施方式中，这可通过搜索包含质疑其训练数据库中的用途的单词的短语来完成此操作。例如，讲话者的设备可经由数据网络连接到搜索远程训练数据库的远程计算机系统。远程计算机系统可检测消歧或者讲话者的设备之一可检测消歧。在可替代的实施方式中，代替训练数据库，可使用可存储在讲话者的设备上或者远程的常规词典。

在源端，系统则处于询问用户的位置：“你认为‘nail’是如在“他们使用钉子固定门”中的意思还是如在“她把她得指甲涂成红色”中的意思”。如果用户选择一种或者另一种解答，则该系统可采用所选择的翻译意义，并且提高对该词意义的翻译概率。可在显示器上图形地或者通过口头消歧短语来给出两个有歧义的选项的呈现。

例如，用于消歧模块的代码可存储在RAM 212中和/或非易失性数据存储器216中，并且可由应用处理器204执行。参见图10。

图8是根据各种实施方式的交互式消歧模块40的过程流的流程图。在该实例中，假设讲话者1说语言1，出于讲话者2的利益，其将被翻译成语言2。在步骤50，交互式消歧模块40确定在讲话者1的为语言1的识别语音中是否存在歧义。如上所述，交互式消歧模块40基于下列情况作出该确定：(i)来自ASR l的对讲话者1的言语的声音识别置信度得分，(ii)基于要被提取的信息(例如，要被填充的表格)的ASR1的假设的真实性，以及(iii)基于对另一讲话者(例如，来自MT 2的讲话者2)的言语的翻译的语言上下文的假设的真实性。基于得分和评估(以及可能的其他因素)，交互式消歧模块40确定是否应向讲话者1发起消歧询问。如上所述，如果是，则在步骤52发送消歧询问。

如果在步骤50没有检测到歧义，则过程转到步骤54，其中基于从语言1到语言2的讲话者1的翻译语音来确定是否需要执行消歧询问。这可如上所述来完成。如果需要消歧询问，则过程转到发起消歧询问的步骤52。当然，如果由于翻译等而不需要消歧询问，则该系统继续步骤56的正常语音识别和翻译过程。如上所述，在步骤52的消歧询问基于歧义类型(例如，识别相对翻译)可具有不同的格式。

根据各种实施方式，上述消歧功能可在具有或者不具有信息提取功能的情况下使用。

在上述描述中，在双语对话的背景下描述了信息提取过程。在其他实施方式中，可在单语对话过程中执行信息提取过程。类似于双语模式，单语模式下的设备可执行对讲话者的语音发声的识别并且提取识别语音中的关键信息以填入表格28的各种适用字段中。使用与上述双语模式的相同实例，医生可以第一语言(例如，英语)询问“你多大了？”患者可以相同的语言(即，单语对话)回答“我五十岁了。”可从该对话中提取关键信息(在此为“50”)并且填入表格94的年龄字段96(参见图9)。而且，设备可使用该问题的上下文(例如，“你多大了？”)来确定患者的回答将包括填入年龄字段96中的年龄。以类似的方式，医生-患者对话可用于填充表格的其他字段，诸如，姓名字段98、100，性别字段102，体重字段104，妊辰检查字段106，过敏字段108等。参考图9的实例界面，在该实施方式中，说共同语言(例如，英语)的两个讲话者的识别语音的文本可分别显示在两个字段90、92中。从两个讲话者之间的单语对话中所提取的信息可显示在表格94的右侧。

在各种实施方式中，可通过即按通话开关(push-to-talk switch)来控制人类用户之间的对话流(仅在记录按钮激活之后记录每句言语)，或者系统可在自由式多信道开放式麦克风记录(同步翻译)模式下操作，同时操作来自两个(或者多个)讲话者的语音。

此外，如上，设备12可通过电子邮件或上传的电子版患者记录来共享已完成或者未完成的表格，从而从移动便携式设备实现在中央数据库中的信息记录的不断的和即时的更新。所上传/传输的表格可或者可不包括实际的对话数据以及有关的多模式用户交互、询问以及编辑，从而提供关于整个人-人相遇和交互的粒度信息。

因此，根据各种实施方式，本发明涉及一种用于从至少第一讲话者与第二讲话者之间的人与人对话中提取信息的设备。该设备可包括至少一个麦克风、屏幕显示器、至少一个可编程处理器以及用于存储数字数据的至少一个数据存储单元。至少一个可编程处理器与至少一个麦克风和屏幕显示器通信。此外，至少一个可编程处理器被编程为：(i)自动识别通过至少一个麦克风接收的第一讲话者的语音；(ii)自动识别通过至少一个麦克风接收的第二讲话者的语音；(iii)至少从第二讲话者的识别语音中提取信息；(iv)将从第二讲话者的识别语音中所提取的信息输入到存储在计算机系统的至少一个数据存储单元中并显示在屏幕显示器的图形用户界面上的电子表格中。

根据各种实施方式：第一讲话者说第一语言；第二讲话者说不同于第一语言的第二语言；并且至少一个可编程处理器被进一步编程为：(i)将说第一语言的第一讲话者的识别语音自动翻译成第二语言；(ii)将说第二语言的第二讲话者的识别语音自动翻译成第一语言；(iii)通过至少从被翻译成第一语言的第二讲话者的识别语音的翻译中提取信息，来至少从第二讲话者的识别语音中提取信息；并且(iv)通过将从被翻译成第一语言的第二讲话者的识别语音的翻译中所提取的信息输入到存储在至少一个数据存储单元的电子表格中来输入提取信息。此外，处理器可被进一步编程为：(v)至少从说第一语言的第一讲话者的识别语音中提取信息；以及(vi)将从说第一语言的第一讲话者的识别语音中所提取的信息输入到电子表格中。

根据各种实施方式，处理器被编程为通过语义语法解析翻译来从被翻译成第一语言的第二讲话者的识别语音的翻译中提取信息。此外，处理器可被进一步编程为从远程数据库中检索与提取信息相关的一个或多个文件。此外，处理器可被编程为通过检测翻译中的一个或多个关键字来从被翻译成第一语言的第二讲话者的识别语音的翻译中提取信息。此外，处理器可被进一步编程为在将提取信息输入到电子表格中之前从第一讲话者和第二讲话者中的至少一个征求反馈。此外，至少一个可编程处理器可被编程为识别并且接收通过设备的用户经由屏幕显示器输入的对电子表格中的提取信息的编辑。

在另一个一般性方面中，本发明涉及一种用于从至少第一讲话者与第二讲话者之间的人与人对话中提取信息的基于计算机的设备。该设备包括至少一个麦克风、屏幕显示器以及用于存储数字数据的至少一个数据存储单元。该设备还包括用于自动识别通过至少一个麦克风接收的第一讲话者的语音的第一自动语音识别模块。该设备进一步包括用于自动识别通过至少一个麦克风接收的第二讲话者的语音的第二自动语音识别模块。此外，该设备包括与第一自动语音识别模块和第二自动语音识别模块、至少一个麦克风以及屏幕显示器通信的信息提取模块。信息提取模块用于：(i)至少从第二讲话者的识别语音中提取信息；以及(ii)将从第二讲话者的识别语音中所提取的信息输入到存储在至少一个数据存储单元中并显示在屏幕显示器的图形用户界面上的电子表格中。

根据各种实施方式：第一讲话者说第一语言；第二讲话者说不同于第一语言的第二语言；并且该设备进一步包括：(i)第一机器翻译模块，与第一自动语音识别模块通信，其中，第一机器翻译模块用于将说第一语言的第一讲话者的识别语音自动翻译成第二语言；以及(ii)第二机器翻译模块，与第二自动语音识别模块通信，其中，第二机器翻译模块用于将说第二语言的第二讲话者的识别语音自动翻译成第一语音。在这种实施方式中，信息提取模块用于：(i)通过至少从被翻译成第一语言的第二讲话者的识别语音的翻译中提取信息，来至少从第二讲话者的识别语音中提取信息；以及(ii)通过将从被翻译成第一语言的第二讲话者的识别语音的翻译中所提取的信息输入到存储在至少一个数据存储单元中的电子表格中来输入提取信息。

在各种实施方式中，信息提取模块进一步用于：(i)至少从说第一语言的第一讲话者的识别语音中提取信息；以及(ii)将从说第一语言的第一讲话者的识别语音中所提取的信息输入到电子表格中。信息提取模块可通过语义语法对翻译进行解析来从被翻译成第一语言的第二讲话者的识别语音的翻译中提取信息。此外，该设备可包括用于从远程数据库检索中检索与提取信息相关的一个或者多个文件的信息检索器模块。此外，信息提取模块可通过检测翻译中的一个或者多个关键字来从被翻译成第一语言的第二讲话者的识别语音的翻译中提取信息。该设备可进一步包括多模式交互界面，以在将所提取的信息输入到电子表格之前从第一讲话者和第二讲话者中的至少一个征求反馈。

在又一个一般性方面中，本发明涉及一种用于在讲话的至少第一讲话者与第二讲话者之间的人与人对话过程中提取信息的计算机实施的方法。该方法可包括下列步骤：(i)通过基于计算机的信息提取设备的至少一个麦克风接收在对话过程中的第一讲话者和第二讲话者的语音；(ii)通过基于计算机的信息提取设备自动识别第一讲话者的语音；(iii)通过基于计算机的信息提取设备自动识别说第二语言的第二讲话者的语音；(iv)通过基于计算机的信息提取设备至少从第二讲话者的识别语音中提取信息；以及(v)通过基于计算机的信息提取设备将从第二讲话者的识别语音中所提取的信息输入到存储在信息提取设备的至少一个数据存储单元中的电子表格中。

在各种实施方式中，该方法可进一步包括将表格显示在基于计算机的信息提取设备的屏幕显示器上的步骤。此外，在第一讲话者说第一语言并且第二讲话者说不同于第一语言的第二语言的情况下，该方法可进一步包括下列步骤：(i)通过基于计算机的信息提取设备将说第一语言的第一讲话者的识别语音自动翻译成第二语言；(ii)通过基于计算机的信息提取设备将说第二语言的第二讲话者的识别语音自动翻译成第一语言。此外，至少提取信息的步骤可包括通过基于计算机的信息提取设备至少从被翻译成第一语言的第二讲话者的识别语音的翻译中提取信息。并且输入提取信息的步骤可包括通过基于计算机的信息提取设备将从被翻译成第一语言的第二讲话者的识别语音的翻译中所提取的信息输入到存储在信息提取设备的至少一个数据存储单元中的电子表格中。

在各种实施方式中，该方法进一步包括：至少从说第一语言的第一讲话者的识别语音中提取信息；以及将从说第一语言的第一讲话者的识别语音中所提取的信息输入到电子表格中。从被翻译成第一语言的第二讲话者的识别语音的翻译中提取信息可包括通过语义语法对翻译进行解析。该方法可进一步包括通过基于计算机的信息提取设备从远程数据库中检索与提取信息相关的一个或者多个文件。从被翻译成第一语言的第二讲话者的识别语音的翻译中提取信息可包括检测翻译中的一个或多个关键字。该方法还可进一步包括在将所提取的信息输入到电子表格中之前通过基于计算机的信息提取设备从第一讲话者和第二讲话者中的至少一个征求反馈的步骤。此外，该方法可进一步包括：(i)通过基于计算机的信息提取设备确定在第一讲话者的识别语音中是否存在歧义；(ii)通过基于计算机的信息提取设备确定在说第一语言的第一讲话者的识别语音至第二语言的翻译中是否存在歧义；以及(iii)一旦通过基于计算机的信息提取设备确定(a)在第一讲话者的识别语音中或者(b)在说第一语言的第一讲话者的识别语音至第二语言的翻译中存在歧义，则通过基于计算机的信息提取设备经由基于计算机的信息提取设备的屏幕显示器向第一讲话者发起询问，其中，对消歧询问的响应解除歧义。与歧义存在于说第一语言的第一讲话者的识别语音至第二语言的翻译中时相比，当歧义存在于第一讲话者的识别语音中时，向第一讲话者发起的消歧询问可以是不同的。此外，可基于多种因素确定在第一讲话者的识别语音中是否存在歧义，包括：(i)第一讲话者的识别语音中的声学置信度得分；(ii)电子表格的上下文；以及(iii)通过来自第二讲话者的一个或多个言语从第二语言至第一语言的翻译所给出的语言上下文。也可基于多种因素确定在说第一语言的第一讲话者的识别语音至第二语言的翻译中是否存在歧义，包括：在最高得分输出翻译的阈值得分差异之内是否存在一个或多个可替代的输出翻译；并且如果最高得分输出翻译的阈值得分差异之内部存在可替代的输出翻译，则最高得分输出翻译的得分是否低于最小阈值。

在又一个一般性方面中，本发明涉及一种解除在至少说第一语言的第一讲话者与说第二语言的第二讲话者之间的人与人对话的语音翻译中的歧义的计算机实施的方法。该方法可包括下列步骤：(i)通过基于计算机的语音翻译系统识别说第一语言的第一讲话者的语音；(ii)通过基于计算机的语音翻译系统确定在第一讲话者的识别语音中是否存在歧义；(iii)通过基于计算机的语音翻译系统将说第一语言的第一讲话者的识别语音翻译成第二语言；(iv)通过基于计算机的语音翻译系统确定在说第一语言的第一讲话者的识别语音至第二语言的翻译中是否存在歧义；以及(v)一旦通过基于计算机的语音翻译系统确定(a)在第一讲话者的识别语音中或者(b)在说第一语言的第一讲话者的识别语音至第二语言的翻译中存在歧义，则通过基于计算机的语音翻译系统经由语音翻译系统的用户界面向第一讲话者发起消歧询问，其中，对消歧询问的响应解除歧义。

在又一个一般性方面中，本发明涉及一种用于从至少第一讲话者与第二讲话者之间的人与人对话中提取信息的设备。该设备可包括：至少一个麦克风、屏幕显示器和至少一个可编程处理器以及用于存储数字数据的至少一个数据存储单元。至少一个可编程处理器与屏幕显示器和至少一个麦克风通信。并且至少一个可编程处理器可被编程为：(i)在第一讲话者与第二讲话者之间的对话过程中，自动识别通过至少一个麦克风接收的第一讲话者和第二讲话者的语音；(ii)在第一讲话者与第二讲话者之间的对话过程中，在显示在屏幕显示器上的图形用户界面的第一部分上输出第一讲话者和第二讲话者的识别语音；以及(iii)在显示在屏幕显示器上的图形用户界面的第二部分上显示具有与第一讲话者与第二讲话者之间的对话相关的信息的表格(例如，提取表格)。至少一个可编程处理器可被进一步编程为从第一讲话者与第二讲话者之间的对话中提取信息以用于输出在表格的图形用户界面的第二部分上。此外，对于第一讲话者说第一语言并且第二讲话者说第二语言的情况，至少一个可编程处理器可被编程为：(i)将第一讲话者的识别语音翻译成第二语言；(ii)将第二讲话者的识别语音翻译成第一语言；以及(iii)在图形用户界面的第一部分上显示第一讲话者和第二讲话者的识别语音的翻译。此外，至少一个可编程处理器可被编程为识别并且接收由设备的用户经由屏幕显示器输入的对提取信息的编辑。

对本领域普通技术人员将显而易见的是，在本文中所描述的至少某些实施方式可实施为软件、固件和/或硬件的多种不同实施方式。软件和固件代码可通过处理器电路或者任何其他相似的计算设备来执行。可用于实施实施方式的软件代码或者专门的控制硬件并不受限制。例如，本文中所描述的实施方式可以使用任何合适的计算机软件语言类型的计算机软件来实施，例如，使用传统的或者面向对象的技术。这种软件例如可存储在任何合适类型的计算机可读介质或者媒介上，诸如，磁或光学存储介质。可在不特定参考具体软件代码或者专门的硬件部件的情况下，来描述实施方式的操作和行为。因为清晰易懂的是，普通领域技术人员将能够在不付出大量努力和过度实验的情况下基于本发明描述来设计软件和控制硬件来实现实施方式，所以可缺少这种具体的参考。

而且，与本实施方式相关联的过程可通过可编程的设备来执行，诸如，计算机或者计算机系统、移动设备、智能电话和/或处理器。使可编程设备执行各种过程的软件例如可存储在任何存储设备中，诸如，计算机系统(非易失性)存储器、RAM、ROM，闪存、光盘、磁带或者磁盘。而且，当制造计算机系统或者存储在各种类型的计算机可读媒介上时可对至少某些过程进行编程。

此外，还可理解，可使用存储在计算机可读介质或者媒介上的指导计算机系统执行过程步骤的指令来执行本文中所描述的某些过程方面。例如，计算机可读介质可包括存储器设备，诸如，软盘、光盘(CD)、数字式多功能光盘(DVD)、光盘驱动或者硬盘驱动。计算机可读介质还可包括物理的、虚拟的、永久的、临时的、半永久的和/或半临时性的内存存储器。

例如但不限于，“计算机”、“计算机系统”、“主机”、“服务器”或者“处理器”可以是处理器、微处理器、微计算机、服务器、大型机、膝上型电脑、个人数据助理(PDA)、无线电子邮件设备、蜂窝电话、智能电话、平板电脑、移动设备、寻呼机、处理器、传真机、扫描仪或者被配置为经由网络传输和/或接收数据的任何其他可编程的设备。本文中所公开的计算机系统和基于计算机的设备可包括用于存储特定软件模块的存储器或者用于获得、处理以及传递信息的引擎。可以理解，这种存储器相对于所公开的实施方式的操作可以是内部的或者外部的。存储器还可包括用于存储软件的任何器件，包括硬盘、光盘、软盘、ROM(只读存储器)、RAM(随机存取存储器)、PROM(可编程的ROM)、EEPROM(电可擦除PROM)和/或其他计算机可读介质。本文中所描述的软件模块和引擎可通过访问存储模块的存储器的计算机设备的处理器(或者多个处理器，视情况而定)来执行。

在本文中所公开的各种实施方式中，单个部件可被多个部件取代，并且多个部件可被单个部件取代，以执行给定的功能或者多个功能。除了这种取代将不可操作的情况之外，这种取代落在实施方式的目的范围内。例如，本文中所描述的任何服务器可被定位成并且配置为用于协作功能的“服务器农场(server farm)”或者其他网络服务器群(诸如，刀片式服务器)取代。可以认识到，服务器农场可用于分配农场的各个部件之间/之中的工作量并且通过利用多个服务器的集体的和协作的利用可加快计算过程。这种服务器农场例如可采用完成诸如下列任务的负载平衡软件：用于处理来自不同机器的功率的跟踪需求、基于网络需求优先化和调度任务和/或在部件发生故障或操作性降低的情况下提供备份应急功能。

计算机系统可包括经由一条或多条数据总线与存储器(例如，RAM或者ROM)通信的一个或多个处理器。数据总线可在处理器与存储器之间携载电信号。处理器和存储器可包括引导电流的电路。电路的各个部件(诸如处理器和/或存储器电路的固态晶体管)的充电状态可在电路操作过程中改变。

尽管本文中已经描述了各种实施方式，但显而易见的是，对于本领域技术人员来说，在实现至少某些优点的情况下，可出现对这些实施方式的各种修改、变更以及适配。因此，所公开的实施方式旨在包括在不偏离本文中所阐述的实施方式的范围的情况下的所有这些修改、变更以及适配。

Claims

1.一种用于从至少第一讲话者与第二讲话者之间的人与人对话中提取信息的设备，所述设备包括：

至少一个麦克风；

屏幕显示器；以及

至少一个可编程处理器和用于存储数字数据的至少一个数据存储单元，其中，所述至少一个可编程处理器与所述至少一个麦克风和所述屏幕显示器通信，并且其中，所述至少一个可编程处理器被编程为：

自动识别由所述至少一个麦克风接收的所述第一讲话者的语音；

自动识别由所述至少一个麦克风接收的所述第二讲话者的语音；

至少从所述第二讲话者的所识别的语音中提取信息；并且将从所述第二讲话者的所识别的语音中所提取的信息输入到电子表格中，所述电子表格存储在所述计算机系统的所述至少一个数据存储单元中并显示在所述屏幕显示器上的图形用户界面中。

2.根据权利要求1所述的设备，其中：

所述第一讲话者说第一语言；

所述第二讲话者说不同于所述第一语言的第二语言；并且所述至少一个可编程处理器被进一步编程为：

将说所述第一语言的所述第一讲话者的所识别的语音自动翻译成所述第二语言；

将说所述第二语言的所述第二讲话者的所识别的语音自动翻译成所述第一语言；

通过至少从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取信息，至少从所述第二讲话者的所识别的语音中提取信息；并且

通过将从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取的信息输入到存储在所述至少一个数据存储单元中的所述电子表格中，来输入所提取的信息。

3.根据权利要求2所述的设备，其中，所述处理器被进一步编程为：

至少从说所述第一语言的所述第一讲话者的所识别的语音中提取信息；并且

将从说所述第一语言的所述第一讲话者的所识别的语音中提取的信息输入到所述电子表格中。

4.根据权利要求3所述的设备，其中，所述图形用户界面具有用户输入，所述用户输入在被调用时，将显示在所述屏幕显示器上的所述图形用户界面中的所述电子表格从以所述第一语言显示切换为以所述第二语言显示。

5.根据权利要求2所述的设备，其中，所述处理器被编程为通过语义语法对所述翻译进行解析来从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取所述信息。

6.根据权利要求2所述的设备，其中，所述处理器被编程为通过命名的实体标签来从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取所述信息。

7.根据权利要求2所述的设备，其中，所述处理器被编程为通过口语词检测来从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取所述信息。

8.根据权利要求5所述的设备，其中，所述处理器被进一步编程为从远程数据库中检索与所提取的信息相关的一个或多个文件。

9.根据权利要求2所述的设备，其中，所述处理器被编程为通过检测所述翻译中的一个或多个关键字来从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取所述信息。

10.根据权利要求9所述的设备，其中，所述处理器被进一步编程为从远程数据库中检索与所提取的信息相关的一个或多个文件。

11.根据权利要求1所述的设备，其中，所述处理器被进一步编程为在将所提取的信息输入到所述电子表格之前，从所述第一讲话者和所述第二讲话者中的至少一个征求反馈。

12.根据权利要求1所述的设备，其中，所述至少一个可编程处理器被编程为识别和接收由所述设备的用户经由所述屏幕显示器输入的对所述电子表格中的所提取的信息的编辑。

13.一种用于从至少第一讲话者与第二讲话者之间的人与人对话中提取信息的基于计算机的设备，所述设备包括：

至少一个麦克风；

屏幕显示器：

至少一个数据存储单元，用于存储数字数据；

第一自动语音识别模块，用于自动识别通过所述至少一个麦克风接收的所述第一讲话者的语音；

第二自动语音识别模块，用于自动识别通过所述至少一个麦克风接收的所述第二讲话者的语音；以及

信息提取模块，与所述第一自动语音识别模块和所述第二自动语音识别模块、所述至少一个麦克风以及所述屏幕显示器通信，其中，所述信息提取模块用于：

至少从所述第二讲话者的所识别的语音中提取信息；并且将从所述第二讲话者的识别的语音中提取的信息输入到电子表格中，所述电子表格存储在所述至少一个数据存储单元中并显示在所述屏幕显示器上的图形用户界面中。

14.根据权利要求13所述的设备，其中：

所述第一讲话者说第一语言；

所述第二讲话者说不同于所述第一语言的第二语言；并且所述设备进一步包括：

第一机器翻译模块，与所述第一自动语音识别模块通信，其中，所述第一机器翻译模块用于将说所述第一语言的所述第一讲话者的所识别的语音自动翻译成所述第二语言；

第二机器翻译模块，与所述第二自动语音识别模块通信，其中，所述第二机器翻译模块用于将说所述第二语言的所述第二讲话者的所识别的语音自动翻译成所述第一语言；并且

其中，所述信息提取模块用于：

通过至少从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取信息，来至少从所述第二讲话者的所识别的语音中提取信息；并且

通过将从被翻译成所述第一语言的所述第二讲话者的所识别的语音的翻译中提取的信息输入到存储在所述至少一个数据存储单元内的所述电子表格中，来输入所提取的信息。

15.根据权利要求14所述的设备，其中，所述信息提取模块进一步用于：

16.根据权利要求15所述的设备，其中，所述图形用户界面具有用户输入，所述用户输入在被调用时，将显示在所述屏幕显示器上的所述图形用户界面中的所述电子表格从以所述第一语言显示切换至以所述第二语言显示。

17.根据权利要求14所述的设备，其中，所述信息提取模块通过语义语法对所述翻译进行解析来从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取所述信息。

18.根据权利要求14所述的设备，其中，所述信息提取模块通过命名的实体标签来从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取所述信息。

19.根据权利要求14所述的设备，其中，所述信息提取模块通过口语词检测来从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取所述信息。

20.根据权利要求17所述的设备，进一步包括用于从远程数据库中检索与所提取的信息相关的一个或多个文件的信息检索器模块。

21.根据权利要求14所述的设备，其中，所述信息提取模块通过检测所述翻译中的一个或多个关键字来从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取所述信息。

22.根据权利要求21所述的设备，进一步包括用于从远程数据库中检索与所提取的信息相关的一个或多个文件的信息检索器模块。

23.根据权利要求13所述的设备，进一步包括多模式交互界面，所述多模式交互界面在将所提取的信息输入到所述电子表格之前，从所述第一讲话者和所述第二讲话者中的至少一个征求反馈。

24.一种用于在讲话的至少第一讲话者与第二讲话者之间的人与人对话过程中提取信息的计算机实施的方法，所述方法包括：

通过基于计算机的信息提取设备的至少一个麦克风在所述对话过程中接收所述第一讲话者与所述第二讲话者的语音；

通过所述基于计算机的信息提取设备自动识别所述第一讲话者的所述语音；

通过所述基于计算机的信息提取设备自动识别说所述第二语言的所述第二讲话者的所述语音；

通过所述基于计算机的信息提取设备至少从所述第二讲话者的所识别的语音中提取信息；并且

通过所述基于计算机的信息提取设备将从所述第二讲话者的所识别的语音中提取的信息输入到电子表格中，所述电子表格存储在所述信息提取设备的至少一个数据存储单元中。

25.根据权利要求24所述的方法，进一步包括在所述基于计算机的信息提取设备的屏幕显示器上显示所述表格。

26.根据权利要求25所述的方法，其中，所述第一讲话者说第一语言，并且所述第二讲话者说不同于所述第一语言的第二语言，并且其中，所述方法进一步包括：

通过所述基于计算机的信息提取设备将说所述第一语言的第一讲话者的所识别的语音自动翻译成所述第二语言；通过所述基于计算机的信息提取设备将说所述第二语言的第二讲话者的所识别的语音自动翻译成所述第一语言；并且其中：

至少提取信息包括通过所述基于计算机的信息提取设备至少从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取信息；并且

输入所提取的信息包括通过所述基于计算机的信息提取设备将从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取的信息输入到存储在所述信息提取设备的所述至少一个数据存储单元内的所述电子表格中。

27.根据权利要求26所述的方法，进一步包括：

28.根据权利要求27所述的方法，进一步包括当用于切换语言的所述图形用户界面上的输入被调用时，将显示在所述屏幕显示器上的所述图形用户界面中的所述电子表格从以所述第一语言显示切换至以所述第二语言显示。

29.根据权利要求26所述的方法，其中，从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取所述信息包括通过语义语法对所述翻译进行解析。

30.根据权利要求29所述的方法，进一步包括通过所述基于计算机的信息提取设备从远程数据库中检索与所提取的信息相关的一个或多个文件。

31.根据权利要求26所述的方法，其中，从被翻译成所述第一语言的所述第二讲话者的所识别的语音的所述翻译中提取所述信息包括检测所述翻译中的一个或多个关键字。

32.根据权利要求31所述的方法，进一步包括通过所述基于计算机的信息提取设备从远程数据库中检索与所提取的信息相关的一个或多个文件。

33.根据权利要求26所述的方法，进一步包括在将所提取的信息输入到所述电子表格之前，通过所述基于计算机的信息提取设备从所述第一讲话者和所述第二讲话者中的至少一个征求反馈。

34.根据权利要求26所述的方法，进一步包括：

通过所述基于计算机的信息提取设备确定在所述第一讲话者的所识别的语音中是否存在歧义；

通过所述基于计算机的信息提取设备确定在说所述第一语言的所述第一讲话者的所识别的语音至所述第二语言的所述翻译中是否存在歧义；并且

一旦通过所述基于计算机的信息提取设备确定在(i)所述第一讲话者的所识别的语音中或者在(ii)说所述第一语言的所述第一讲话者的所识别的语音至所述第二语言的所述翻译中存在歧义，则通过所述基于计算机的信息提取设备经由所述基于计算机的信息提取设备的所述屏幕显示器向所述第一讲话者发出消歧询问，其中，对所述消歧询问的响应解除所述歧义。

35.根据权利要求34所述的方法，其中，与所述歧义存在于说所述第一语言的所述第一讲话者的所识别的语音至所述第二语言的所述翻译中时相比，当所述歧义存在于所述第一讲话者的所识别的语音中时，向所述第一讲话者发出的所述消歧询问是不同的。

36.根据权利要求34所述的方法，其中，基于多种因素确定在所述第一讲话者的所识别的语音中是否存在歧义，所述因素包括：

在所述第一讲话者的所识别的语音中的声学置信度得分；

所述电子表格的上下文；以及

通过来自所述第二讲话者的一个或多个言语从所述第二语言至所述第一语言的翻译所给出的语言上下文。

37.根据权利要求34所述的方法，其中，基于多种因素确定在说所述第一语言的所述第一讲话者的所识别的语音至所述第二语言的所述翻译中是否存在歧义，所述因素包括：

在最高得分输出翻译的阈值得分差异之内是否存在一个或多个可替代的输出翻译；并且

如果在所述最高得分输出翻译的所述阈值得分差异之内不存在可替代的输出翻译，则所述最高得分输出翻译的所述得分是否低于最小阈值。

38.根据权利要求34所述的方法，其中，所述基于计算机的信息提取设备的所述屏幕显示器包括触摸屏显示器。

39.根据权利要求27所述的方法，进一步包括通过所述基于计算机的信息提取设备接收对所述表格中的条目的校正。

40.根据权利要求39所述的方法，其中，接收所述校正包括将来自显示在所述屏幕显示器上的所识别的语音的转录中的信息拖拽到显示在所述屏幕显示器上的所述表格中的所述条目。

41.根据权利要求40所述的方法，其中，接收所述校正包括接收对所述表格中的所述条目的一个或多个编辑。

42.根据权利要求41所述的方法，其中，接收对所述表格中的所述条目的一个或多个编辑包括接收对所述表格中的所述条目的口头输入编辑。

43.根据权利要求41所述的方法，其中，接收对所述表格中的所述条目的一个或多个编辑包括通过所述基于计算机的信息提取设备检测指示对所述表格中的所述条目的校正的手势。

44.根据权利要求24所述的方法，进一步包括通过所述基于计算机的信息提取设备将所述电子表格上传到远程数据库。

45.根据权利要求27所述的方法，进一步包括通过所述基于计算机的信息提取设备将所述电子表格上传到远程数据库。

46.一种解除在至少说第一语言的第一讲话者与说第二语言的第二讲话者之间的人与人对话的语音翻译中的歧义的计算机实施的方法，所述方法包括：

通过基于计算机的语音翻译系统识别说所述第一语言的所述第一讲话者的语音；

通过所述基于计算机的语音翻译系统确定在所述第一讲话者的所识别的语音中是否存在歧义；

通过所述基于计算机的语音翻译系统将说所述第一语言的所述第一讲话者的所识别的语音翻译成所述第二语言；

通过所述基于计算机的语音翻译系统确定在说所述第一语言的所述第一讲话者的所识别的语音至所述第二语言的所述翻译中是否存在歧义；并且

一旦通过所述基于计算机的语音翻译系统确定在(i)所述第一讲话者的所识别的语音中或者在(ii)说所述第一语言的所述第一讲话者的所识别的语音至所述第二语言的翻译中存在歧义，则通过所述基于计算机的语音翻译系统经由所述语音翻译系统的用户界面向所述第一讲话者发出消歧询问，其中，对所述消歧询问的响应解除所述歧义。

47.根据权利要求46所述的方法，其中，与所述歧义存在于说所述第一语言的所述第一讲话者的所识别的语音至所述第二语言的所述翻译中时相比，当所述歧义存在于所述第一讲话者的所识别的语音中时，向所述第一讲话者发出的所述消歧询问是不同的。

48.根据权利要求46所述的方法，其中，基于多种因素确定在所述第一讲话者的所识别的语音中是否存在歧义，所述因素包括：

在所述第一讲话者的所识别的语音中的声学置信度得分；

所述第一讲话者与所述第二讲话者之间的所述对话的上下文；以及

49.根据权利要求46所述的方法，其中，基于多种因素确定在说所述第一语言的所述第一讲话者的所识别的语音至所述第二语言的翻译中是否存在歧义，所述因素包括：

50.根据权利要求46所述的方法，其中，所述语音翻译系统的所述用户界面包括触摸屏显示器。

51.一种用于从至少第一讲话者与第二讲话者之间的人与人对话中提取信息的设备，所述设备包括：

至少一个麦克风；

屏幕显示器；以及

至少一个可编程处理器和用于存储数字数据的至少一个数据存储单元，其中，所述至少一个可编程处理器与所述屏幕显示器和所述至少一个麦克风通信，并且其中，所述至少一个可编程处理器被编程为：

在所述第一讲话者与所述第二讲话者之间的对话过程中，自动识别由所述至少一个麦克风接收的所述第一讲话者和所述第二讲话者的语音；

在所述第一讲话者与所述第二讲话者之间的所述对话过程中，在显示在所述屏幕显示器上的图形用户界面的第一部分上输出所述第一讲话者和所述第二讲话者的识别的语音；并且

在显示在所述屏幕显示器上的所述图形用户界面的第二部分上输出具有与所述第一讲话者和所述第二讲话者之间的所述对话相关的信息的表格。

52.根据权利要求51所述的设备，其中，所述至少一个可编程处理器被进一步编程为从所述第一讲话者与所述第二讲话者之间的所述对话中提取信息以输出在所述表格中的所述图形用户界面的所述第二部分上。

53.根据权利要求52所述的设备，其中：

所述第一讲话者说第一语言并且所述第二讲话者说第二语言；并且

所述至少一个可编程处理器被编程为：

将所述第一讲话者的所识别的语音翻译成所述第二语言；

将所述第二讲话者的所识别的语音翻译成所述第一语言；并且

在所述图形用户界面的所述第一部分上显示所述第一讲话者和所述第二讲话者的所识别的语音的所述翻译。

54.根据权利要求52所述的设备，其中，所述至少一个可编程处理器被编程为识别并且接收由所述设备的用户经由所述屏幕显示器输入的对提取的信息的编辑。

55.根据权利要求53所述的设备，其中，所述图形用户界面具有用户输入，所述用户输入在被调用时，将显示在所述屏幕显示器上的所述图形用户界面中的所述电子表格从以所述第一语言显示切换至以所述第二语言显示。