CN107003723A - 用于会话系统中的响应选择和组成的自动化的方法和系统 - Google Patents

用于会话系统中的响应选择和组成的自动化的方法和系统 Download PDF

Info

Publication number
CN107003723A
CN107003723A CN201580056956.6A CN201580056956A CN107003723A CN 107003723 A CN107003723 A CN 107003723A CN 201580056956 A CN201580056956 A CN 201580056956A CN 107003723 A CN107003723 A CN 107003723A
Authority
CN
China
Prior art keywords
user
state
speech
module
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580056956.6A
Other languages
English (en)
Inventor
F.翁
Z.沈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN107003723A publication Critical patent/CN107003723A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Neurosurgery (AREA)
  • Neurology (AREA)
  • Dermatology (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

会话系统包括处理器。系统还可以包括会话管理器。会话管理器可以配置成使用处理器从用户接收输入。系统还可以包括用户类别分类和检测模块,其配置成从所接收的输入标识针对用户的类别。系统还可以包括用户情绪检测和追踪模块,其配置成标识用户的情绪。系统还可以包括用户身体和精神状态以及能量水平检测模块,其配置成标识用户的精神状态。系统还可以包括用户相识模块,其配置成标识用户的相识状态。系统还可以包括用户个性检测和追踪模块,其配置成标识用户的个性状态。系统还可以包括对话上下文检测和响应生成模块。

Description

用于会话系统中的响应选择和组成的自动化的方法和系统
对相关申请的交叉引用
本申请主张对2014年10月21日提交的Weng等人的题为“METHOD AND SYSTEM FORAUTOMATION OF RESPONSE SELECTION AND COMPOSITION IN DIALOG SYSTEMS”的美国临时申请序列号62/066,508的优先权,该临时申请的公开内容特此通过引用以其整体并入本文。
技术领域
本公开总地涉及通信系统,更特别地,涉及话音通信系统。
背景技术
数目日益增加的设备正在进入人们的生活,例如在家庭中、在奔走中或在办公室中。当人们执行诸如烹调、驾驶或书写之类的主要任务时,他们可能想要从事其它任务,例如调节房间温度、打开/关断室内或室外灯、听新闻或查看谁在门前,或者控制车库门。诸如话音通信系统之类的通信系统可以在诸如当人手不能够容易地够到按钮、旋钮或触摸屏时的设置中使用。某些现有系统,诸如Siri,正在增加通信技术对公众的认识。
然而,如以上描述的那些那样的这种现有系统具有若干限制。例如,现有系统未能将人类语言的丰富表达性质考虑在内,并且使用在这些系统中的表达未能将在不同的上下文中和关于不同的使用目的针对不同用户群组如何使用表达或使用哪些表达考虑在内。因此,某些现有系统可能使用一体适用方案。作为结果,大百分比的用户可能未享受这样的系统的使用。存在对于可以解决现有系统的缺陷的系统的需要。
附图说明
图1图示了根据所公开的主题的系统的示例性实施例的功能框图。
图2图示了用于构建用于根据图1的系统中的公开的数据库的知识库的示例性方法。
具体实施方式
出于促进本文所描述的实施例的原理的理解的目的,现在参照各图和以下书面说明书中的描述。这些引用不意图有对主题范围的限制。本公开还包括对所说明的实施例的任何更改和修改,并且包括所描述的实施例的原理的另外的应用,如本文档所涉及领域中的普通技术人员将正常想到的。
在以下描述中,出于解释的目的,阐述众多具体细节以便提供一个或多个方面的透彻理解。然而,可以清楚的是,这样的方面可以在没有这些具体细节的情况下实践。在其它实例中,以框图形式示出公知的结构和设备,以便促进描述一个或多个方面。另外,要理解的是,描述为由某些系统组件实施的功能可以由多个组件执行。类似地,例如,组件可以配置成执行描述为由多个组件实施的功能。
图1图示了系统100的示例性实施例的功能框图。系统100可以是具有关注不同条件之下的系统响应的细节的会话系统。可以使用典型的智能会话系统的其它组件,其例如在美国专利号7,716,056和美国公开专利申请号2014/0019522中有描述,该美国专利和美国公开专利申请的完整的公开内容通过引用并入本文。在一个示例性实施例中,系统100包括用户类别分类和检测模块101、用户情绪检测和追踪模块103、用户身体和精神状态以及能量水平检测模块105、用户相识模块107、用户个性检测和追踪模块109、对话上下文检测和管理模块111以及会话管理器模块113。系统100还包括响应生成模块115。系统100此外可以包括处理器117和数据库119。在一个实施例中,系统100中的这些模块101、103、105、107、109、111、113、115、处理器117和数据库119中的每一个可以配置成与彼此直接对接。在另一实施例中,系统100中的模块101、103、105、107、109、111、113、115、处理器117和数据库119的不同组合可以配置成与彼此直接对接。
在一个实施例中,处理器117可以包括但不限于,中央处理单元(CPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)设备或微控制器。系统100还可以包括存储器。存储器可以并入在数据库119中。在另一实施例中,存储器是与数据库分离的模块。处理器117配置成运行或执行存储在存储器中的经编程的指令。存储器可以是任何合适类型的存储器,仅举几个例子,包括固态存储器、磁性存储器或光学存储器,并且可以实现在单个设备中或跨多个设备分布。存储在存储器中的经编程的指令包括用于实现系统100中的各种功能的指令,所述各种功能包括本文所描述的各种模块101、103、105、107、109、111、113、115和数据库119。
在一个示例中,系统100可以在语音会话系统的响应中并入丰富的表达特性。具体地,系统100可以使用信息,诸如但不限于,年龄类别、性别和专业用户群组,以及所关注的用户群组内的关系(诸如家庭成员关系、团队组织结构)、用户情绪类别、涉及通信需要的上下文信息的类型(诸如对话上下文、环境上下文)、这些实体、群组、状态和信息的本体论关系、要选择用于不同家庭和上下文的语言流派,以及韵律标记类别等。在一个示例中,系统100可以配置成基于该信息而选择来自系统100的输出句子,并且利用对应的韵律和情感标记进行注释。此外或可替换地,系统100还可以包括配置成取决于系统的需要100而选择表达的不同过程。在一个示例中,可以覆盖数个示例应用域,诸如家庭设备控制、体育新闻选择、信息查询、移动辅助、客户支持等。在另一示例中,系统100还可以使用用户的多个方面、上下文的多个方面和语言的多个方面来构造或合成响应。在另一示例中,系统100可以从各种数据源标识和精炼关于不同条件的候选响应以用于响应构造。
在一个示例性实施例中,用户类别分类和检测模块101可以配置成分类和检测用户类别。例如,用户可以被分类到沿不同维度的不同类别中,所述维度诸如年龄、性别、职业和关系。在一个示例中,系统100可以通过诸如当用户开始使用系统100时的用户注册过程之类的过程来获取关于用户的信息。在另一示例中,系统100可以通过与用户的显式或隐式交互而动态地获取关于用户的信息。例如,系统100可以经由用户的话音或经由人员面部的视频而检测用户的年龄群组。在另一示例中,系统100还可以在其执行由用户请求的动作之后询问用户。
进一步参照图1,用户类别分类和检测模块101可以基于用户的年龄对用户分类。在一个示例中,用户类别分类和检测模块101可以标识用户是儿童、青少年、成人还是年长者。关于用户年龄的信息可以例如在用户注册过程和系统相识过程期间基于用户的语音而从用户和从系统100收集。在另一示例中,基于语音的年龄检测还可以用于标识关于用户年龄的信息。
进一步参照图1,用户类别分类和检测模块101可以基于用户的性别对用户分类。关于用户性别的信息可以例如在用户注册过程和系统相识过程期间基于用户的语音而从用户和从系统100收集。在另一示例中,基于语音的年龄检测还可以用于标识关于用户年龄的信息。
进一步参照图1,用户类别分类和检测模块101可以基于用户的职业而对用户分类。用户职业的分类的示例可以包括但不限于,工程师、科学家、银行家、教师、工厂工人、农民、政府职员、军人等。关于用户职业的信息可以例如在用户注册过程和系统相识过程期间基于用户的语音而从用户和从系统100收集。
进一步参照图1,用户类别分类和检测模块101可以基于用户与系统100的其他用户、系统100使用在其中的组织的成员等的关系而对用户分类。用户关系的分类的示例可以包括但不限于,家庭、同事、管理者对比团队成员等。关于用户关系的信息可以例如在用户注册过程和系统相识过程期间基于用户的语音而从用户和从系统100收集。
进一步参照图1,用户情绪检测和追踪模块103可以配置成检测和追踪用户的情绪。在一个示例中,用户的情绪可以在每一个会话轮次中向会话管理器模块113登记。用户情绪的示例可以包括但不限于,开心、生气、悲伤、中性等。用户的情绪可以编码为情感指示符。在一个示例中,用户的情绪可以经由用户与系统100通信时用户的话音特性或用户的面部表情的视频来检测。用户的话音可以是声学信号,并且用户的视频可以是视频流。
进一步参照图1,用户身体和精神状态以及能量水平检测模块105可以检测和标识用户的身体和精神状态以及能量水平。在一个示例中,用户的身体和精神状态以及能量水平可以包括但不限于,用户是否困倦,用户是否刚刚睡醒,用户是否疲劳,用户是否精力旺盛,用户是否正在同时执行其它任务,用户是否在他/她的主要任务时与系统101交互或在与系统交谈中集中足够的注意力等。在一个示例中,用户的身体和精神状态以及能量水平可以从用户话音的能量水平、用户的交谈音调和用户语音中的声音来检测和标识。该信息可以在系统100中检测和登记。在另一示例中,用户的身体和精神状态以及能量水平还可以从来自用户的显式陈述来检测和标识。例如,如果用户说“我累了”或“我需要去睡觉”,用户的身体和精神状态以及能量水平检测模块105可以检测到用户疲倦。在又一示例中,用户身体和精神状态以及能量水平可以由用户上的可穿戴设备检测并且传输至系统100,所述可穿戴设备嵌入在身体中或附连在人员上。这样的可穿戴设备的示例包括但不限于,用于肌肉活动检测和解释的肌电描记术(EMG),用于脑部活动和解释的脑电描记术(EEG)、近红外光谱法(NIRS)等。在另一示例中,用户的身体和精神状态以及能量水平可以例如存储在系统100的数据库119中,并且可以由系统100用于预测用户的身体和精神状态以及能量水平、用户的情绪等。
进一步参照图1,用户的相识模块107可以用于累积用户对系统100的使用。在一个示例中,用户的相识模块107可以用于估计用户是否熟悉系统100。在另一示例中,用户的相识模块107可以用于标识用户知晓其他用户或说话者的水平,诸如用户是否正具有首次遭遇,用户已经具有短时间的相识或长时间的亲密朋友关系。在另一示例中,系统100可以记住用户是否已经首次使用系统100、用户已经使用系统100的时间长度、用户使用系统100的频率和用户使用的系统100的特征。可以在系统100中累积统计量以计算相识值。这样的统计量还可以记录用户间交互,诸如用户(例如两个用户)多常向彼此发送消息,在什么时间段内向彼此发送消息,以及他们交换什么消息。这样的统计量还可以记录两个具体用户多常在大致相同的时间使用相同的系统。这些统计量然后用于估计用户的熟悉度和亲密度。用户的相识模块107可以具有时间因子,所述时间因子可以基于用户不使用系统100的持续时间而降低用户的熟悉度得分。另外,某些统计量可以被用户在初始注册阶段期间或在与系统100的交互期间禁用。
进一步参照图1,用户的个性检测和追踪模块109可以用于检测用户的个性。在一个示例中,该信息可以基于从用户与系统100的交互收集的信息来检测。用户的个性可以被分类为沿若干方面,例如幽默对比程序化、安静对比健谈,以及快速、中等和缓慢的节奏等。在另一示例中,用户的个性检测和追踪模块109可以使用值来计算关于说话者的个性的得分。用户的个性检测和追踪模块109可以使用的值的示例包括但不限于,说话速率、言辞长度、用于任务请求的言辞数目、言辞中的有趣词语等。
进一步参照图1,对话上下文检测和管理模块111可以配置成计算和治理数个值。在另一示例中,对话上下文检测和管理模块111可以配置成收集针对这些方面的统计量。例如,方面可以包括但不限于,诸如家庭设置、商业设置、随意设置等之类的交互设置。在一个示例中,值可以在用户的初始注册时段期间和在随后的使用期间计算。在一个示例中,关于用户的关系的信息可以在标识交互设置的值中放置较高的权重。在一个示例中,基于来自对话上下文检测和管理模块111的值,响应生成模块115可以基于例如为“正式”、“非正式”、“非常随意”等的表达流派而生成响应。
进一步参照图1,对话上下文检测和管理模块111可以配置成计算的值的另一示例是响应紧迫性或节奏,诸如高、中、低。在一个示例中,该值可以使用用户的语音节奏来计算,或者可以在与系统100的交互期间从用户显式地请求。在另一示例中,响应紧迫性可以通过在与系统100的交互期间获取的结果来估计或传达。如果当用户查询关于针对他/她的旅行的火车调度时下一班火车在20分钟内出发,系统111将指示高紧迫性,使得用户可以快速准备好。如果需要在下10米内立即转向,响应需要抓住用户的注意力,使得他/她可以准备好移动。紧迫性的响应可以通过词汇或词语的选择来反映,诸如“马上”或“快速”,和/或通过说话音调或说话速率或甚至具体规定的声音等来反映。在一个示例中,基于来自对话上下文检测和管理模块11的值,响应生成模块115可以生成简短、中等或详尽表达以用于与用户通信。在另一示例中,由响应生成模块115生成的确切措辞还可以取决于来自不同模块101、103、105、107、109、111和113的关于用户的不同信息。
进一步参照图1,对话上下文检测和管理模块111可以配置成计算的值的另一示例是操作时间,诸如在早上、在白天期间、进餐时间或睡前、相对于用户排定的事件而操作系统100。在一个示例中,该值可以基于系统100中的时钟或来自系统100的使用的适配而选择。在另一示例中,该值还可以由用户显式地经由会话管理器模块113来调节。在一个示例中,不同表达可以由响应生成模块115在不同时间生成,因为用户在这些时间段期间可能处于不同的注意力模式中。
进一步参照图1,对话上下文检测和管理模块111可以配置成计算的值的另一示例是对话上下文,诸如几个对话阶段,包括介绍、打招呼、继续、交换议题、结论、由于说话者或聆听者所致的误通信的修复、面对解决手头上的问题中的失败等。在一个示例中,该信息可以被追踪和利用来自会话管理器模块113的输入来更新。
进一步参照图1,会话管理器模块113可以配置成与响应生成模块115通信。在一个示例中,会话管理器模块113可以为响应生成模块115提供信息,诸如用户请求的内容信息和上下文信息。在一个示例中,基于从不同模块101、103、105、107、109、111和113获取的关于用户的信息和上下文信息,响应生成模块115通过选择具有不同韵律标记的不同措辞来决定构造什么表达。
进一步参照图1,响应生成模块115可以配置成使用人类通信的多个方面来设计系统100的响应。在一个示例中,多个方面可以包括系统100个性、用户(对话伙伴)、上下文和语言流派。在另一示例中,除了作为对响应生成模块115的输入的内容选择,来自系统100的响应可以使用示例性方法来生成。用于从系统100生成响应的示例性方法可以包括选择适当的措辞。在一个示例中,词语和表达可以按本文所描述的用户的状态和上下文为条件进行动态地或静态地选择。词汇和表达变化的示例可以包括但不限于,音节数目、具有完整或缩短形式的不同发音的长度变化、由普通人发音的困难程度、与其它词语的可混淆性、幽默或正式等。生成响应的示例性方法还可以包括选择正确的音调。在一个示例中,词语和短语可以被标记,包括强调短语、加长或缩短某个元音或辅音、在言辞结束处升高或降低。生成响应的示例性方法还可以包括选择音量水平。在一个示例中,系统100可以配置成在给定声学环境(诸如响亮嘈杂和安静)和说话者或用户的音量(诸如微弱、有力或正常)的情况下控制适当的语音输出音量。
进一步参照图1,系统100还可以包括数据库119,在其中模块101、103、105、107、109、111、113、115可以构造和维护知识库。知识库可以在系统100中使用来支持通过响应生成模块115的响应生成。数据库可以在本地位于系统100中,或者可以从外部位置与系统100接合。在一个示例中,知识库可以包括丰富的词语词典,其具有持续时间、正式性和智能性的词汇信息。丰富的词语词典可以包括信息,诸如音节数目、具有完整或缩短形式的不同发音的长度变化、由普通人发音的困难程度、与其它词语的可混淆性。知识库还可以包括丰富的表达词典。在一个示例中,丰富的表达词典可以包括以本文所公开的用户和上下文信息为条件的表达、作为来自系统的输出发生的表达频率、表达是否由语音识别器所识别的指示、用途和条件(包括表达在什么情形使用和向谁使用)。如本文所公开的条件示例包括但不限于,年龄、性别、职业、关系、相识、情感指示符、个性指示符、交互设置、响应紧迫性或节奏、操作时间、对话上下文等。条件的示例还可以包括但不限于,所有之前提到的方面之中的本体论关系,其可以是分层的、标量、按类别的和/或二元的等。多个短语或术语可以附连到这些条件,诸如对于家庭成员,人们可以使用父母、父亲、母亲、男孩、儿童等。
图2图示了用于构建用于系统100中的数据库119的知识库的示例性方法。在一个示例中,方法可以用于获取条件连同词语水平和表达水平信息。在另一示例中,方法可以使用半自动方案来利用本文所描述的条件对数据语料库加标签。这些语料库可以包括但不限于,在线tweet语料库或相关域中的讨论论坛、电话对话数据语料库(诸如来自LDC的Switchboard),以及不同对话或会话的影片转录语料库。在另一示例中,说话者或用户及其通信伙伴可以利用特定用户id(诸如在twitter或switchboard中使用的特定用户id)或影片中的角色来标识。特定用户id可以用于语料库的注释。
进一步参照图2,示例性方法可以包括首先标识准则(步骤201)。这可以牵涉选择一个或多个准则集合。标识准则可以牵涉选择一个或多个系统个性连同相关联的准则集合(步骤201)。准则可以是个性准则。该标识或选择可以针对小数据集合手动执行,并且使用一个或多个机器学习算法来训练统计模型以用于将候选者分类成说话者或非说话者以供选择或标识(步骤201)。除其它之外,机器学习算法的示例包括但不限于,支持向量机(SVM)、决策树、最大熵(ME)、神经网络等等。方法还可以包括在满足准则的语料库中标识数个用户(步骤203),例如数个用户id或角色。示例性方法还可以包括标识对话片段和对话伙伴(步骤205)。在标识对话片段和对话伙伴之后,方法可以牵涉或接合这些所标识的人与所选个性(反映系统个性)(步骤205)。示例性方法还可以包括将诸如对话伙伴之类的用户加标签到诸如中等年龄、女性、成人、与另一家庭成员说话等以及对话伙伴有多熟悉的用户群组中(步骤207)。这还可以包括牵涉其对话与对应的上下文(例如家庭设置、中等节奏)(步骤207)。方法还可以包括为韵律标记加标签。在一个示例中,除其它事物之外,韵律标记可以利用以下来加标签:针对电话持续时间、说话速率、犹豫、重复、犹豫、修订或打断的语音识别器;针对开心、生气、悲伤或中性情绪的情感检测器;针对响亮或柔和说话者的说话者能量检测(步骤209)。方法还可以包括提取和在数据库119中存储信息,例如存储到数据库119中的丰富词语词典和丰富表达词典中(步骤211)。
在一个实施例中,所公开的主题可以使得系统100能够使用在数据库119中加标签的人类通信的多个方面来设计系统100的响应。在一些实施例中,其它外部源和其它条件可以使用在系统100中。在其它实施例中,这些外部源和其它条件与系统100中的词语水平和表达水平信息一起使用。
在另一实施例中,所公开的主题可以使得系统100能够使用真实生活中的词语选取、表达选择、句子中的韵律或情感、会话系统中的这样的响应的频率、上下文敏感和个性化来生成响应。在一个示例性实施例中,数据库119还可以来自关于不同话题的不同语料库,诸如twitter、讨论论坛、LDC对话语料库、YouTube视频、影片。在一个示例性实施例中,不同用户相关方面(诸如年龄、性别、职业、情绪、关系、熟悉度)、上下文相关方面(诸如对话设置、紧迫性、时间、状态)以及流派相关方面可以集成在系统100中。所公开的主题提供检测和追踪这些状态的模块的示例。所公开的主题还提供可以由系统100使用的知识库的构造。
在一个示例性实施例中,所公开的主题可以向用户提供个性化的上下文敏感响应系统100,其具有供在家庭、办公室、企业或移动应用中使用的不同个性。
将领会到,以上描述的和其它特征和功能的变型或其可替换方案可以合期望地组合到许多其他的不同系统、应用或方法中。各种目前未预见到的或未预期到的可替换方案、修改、变型或改进可以随后由本领域技术人员做出,它们同样旨在被前述公开内容所涵盖。

Claims (12)

1.一种系统,包括:
处理器;
会话管理器,其配置成使用所述处理器从用户接收输入;
用户类别分类和检测模块,其配置成从使用所述处理器接收的输入标识针对用户的类别;
用户情绪检测和追踪模块,其配置成从使用所述处理器接收的输入标识用户的情绪;
用户身体和精神状态以及能量水平检测模块,其配置成从使用所述处理器接收的输入标识用户的身体和精神状态中的至少一个;
用户相识模块,其配置成从使用所述处理器接收的输入标识用户的相识状态;
用户个性检测和追踪模块,其配置成从使用所述处理器接收的输入标识用户的个性状态;
对话上下文检测和管理模块,其配置成从使用所述处理器接收的输入标识用户的对话上下文;以及
响应生成模块,其配置成使用所述处理器,基于从用户接收的输入、针对用户的类别、用户的情绪、用户的精神状态、用户的相识状态、用户的个性状态和用户的对话上下文,来构建知识库并且生成针对用户的响应。
2.概念1所述的系统,其中所述类别包括年龄、性别、职业和关系中的至少一个。
3.概念1所述的系统,其中所述知识库存储在数据库中。
4.概念1所述的系统,其中所述知识库包括丰富词语词典和丰富表达词典中的至少一个。
5.概念1所述的系统,其中所述系统使用一种方法来生成所述响应,所述方法包括:
基于从用户接收的输入、针对用户的类别、用户的情绪、用户的精神状态、用户的相识状态、用户的个性状态和用户的对话上下文而选择词语;
基于从用户接收的输入、针对用户的类别、用户的情绪、用户的精神状态、用户的相识状态、用户的个性状态和用户的对话上下文而选择音调;以及
基于从用户接收的输入、针对用户的类别、用户的情绪、用户的精神状态、用户的相识状态、用户的个性状态和用户的对话上下文而选择音量水平。
6.权利要求1所述的系统,其中所述用户类别分类和检测模块配置成基于用户的话音特性的分析、用户的至少一个图像的分析和用户的至少一个视频的分析中的至少一个,而将年龄、性别、职业和关系中的至少一个与每一个用户相关联。
7.权利要求1所述的系统,其中所述用户情绪检测和追踪模块配置成将至少一个当前情绪与用户相关联,所述至少一个当前情绪基于用户的当前话音特性的分析、在用户的至少一个图像中用户的当前面部表情的分析和在用户的至少一个视频中用户的当前面部表情的分析中的至少一个而确定。
8.权利要求1所述的系统,其中所述用户身体和精神状态以及能量水平检测模块配置成基于用户的话音的当前音调、用户的当前话音节奏、当日时间、用户睡眠模式和用户的陈述中的至少一个,而将至少一个身体和/或精神状态与用户相关联。
9.权利要求1所述的系统,其中所述相识状态对应于用户对所述系统的熟悉度,并且
其中所述系统配置成基于当前用户是否使用过所述系统、当前用户使用过所述系统的次数、与所述系统的用户交互的频率和所述系统的哪些特征已被用户使用过,而将相识状态与每一个用户相关联。
10.权利要求1所述的系统,其中所述用户个性检测和追踪模块配置成随时间监视与所述系统的用户的交互,并且在逐日的基础上且随时间至少部分地基于用户的话音特性的分析而确定个性状态,所述话音特性包括以下中的至少一个:话音的音调、话音节奏、所使用的词语、所使用的所述系统的特征、与所述系统的交互数目和与所述系统的交互长度。
11.权利要求1所述的系统,其中所述对话上下文检测和管理模块配置成基于交互设置、用户的话音音调、用户的话音的紧迫性水平和具有类似特性的在先交互中的至少一个而标识对话上下文。
12.一种操作配置成使用口头会话与用户交互的会话系统的方法,所述方法包括:
经由话音检测系统接收至所述系统中的话音输入,所述输入对应于用户所说的口头陈述;
使用用户类别分类和检测模块来至少部分地基于从所述话音输入确定的话音特性而从所述话音输入标识用户的年龄、性别和身份中的至少一个;
使用用户情绪检测和追踪模块来至少部分地基于从所述话音输入确定的话音特性而将至少一个情绪与用户相关联;
使用身体和精神状态以及能量水平检测模块来至少部分地基于从所述话音输入确定的话音特性而将至少一个身体和/或精神状态与用户相关联;
使用用户相识模块,所述用户相识模块配置成至少部分地基于从所述话音输入确定的话音特性和与所述系统的在先交互历史而将相识状态与用户相关联;
使用用户个性检测和追踪模块来至少部分地基于从所述话音输入确定的话音特性和与所述系统的在先交互历史而将个性状态与用户相关联;
使用对话上下文检测和管理模块来至少部分地基于从所述话音输入确定的话音特性而将对话上下文与所述话音输入相关联;
生成对所述口头陈述的响应并且基于与用户相关联的类别、情绪、身体和/或精神状态、个性和对话上下文而选择要用于对所述响应进行发声的话音类型和经发声的响应的话音特性;以及
使用所述系统来以所选话音类型和所选话音特性对所述响应进行发声。
CN201580056956.6A 2014-10-21 2015-10-21 用于会话系统中的响应选择和组成的自动化的方法和系统 Pending CN107003723A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462066508P 2014-10-21 2014-10-21
US62/066508 2014-10-21
PCT/US2015/056687 WO2016065020A2 (en) 2014-10-21 2015-10-21 Method and system for automation of response selection and composition in dialog systems

Publications (1)

Publication Number Publication Date
CN107003723A true CN107003723A (zh) 2017-08-01

Family

ID=55761745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580056956.6A Pending CN107003723A (zh) 2014-10-21 2015-10-21 用于会话系统中的响应选择和组成的自动化的方法和系统

Country Status (4)

Country Link
US (1) US10311869B2 (zh)
EP (1) EP3210096B1 (zh)
CN (1) CN107003723A (zh)
WO (1) WO2016065020A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112292674A (zh) * 2018-04-20 2021-01-29 脸谱公司 为助理系统处理多模态用户输入
US12001862B1 (en) 2018-09-19 2024-06-04 Meta Platforms, Inc. Disambiguating user input with memorization for improved user assistance

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11921471B2 (en) 2013-08-16 2024-03-05 Meta Platforms Technologies, Llc Systems, articles, and methods for wearable devices having secondary power sources in links of a band for providing secondary power in addition to a primary power source
US20150124566A1 (en) 2013-10-04 2015-05-07 Thalmic Labs Inc. Systems, articles and methods for wearable electronic devices employing contact sensors
WO2015081113A1 (en) 2013-11-27 2015-06-04 Cezar Morun Systems, articles, and methods for electromyography sensors
US11216069B2 (en) 2018-05-08 2022-01-04 Facebook Technologies, Llc Systems and methods for improved speech recognition using neuromuscular information
EP3487395A4 (en) 2016-07-25 2020-03-04 CTRL-Labs Corporation METHODS AND APPARATUS FOR PREDICTING MUSCULOSKELETAL POSITION INFORMATION USING PORTABLE SELF-CONTAINED SENSORS
CN106991124A (zh) * 2017-03-02 2017-07-28 竹间智能科技(上海)有限公司 基于多互动情境编辑的回答方法及系统
US11436549B1 (en) 2017-08-14 2022-09-06 ClearCare, Inc. Machine learning system and method for predicting caregiver attrition
US10339931B2 (en) 2017-10-04 2019-07-02 The Toronto-Dominion Bank Persona-based conversational interface personalization using social network preferences
US10460748B2 (en) * 2017-10-04 2019-10-29 The Toronto-Dominion Bank Conversational interface determining lexical personality score for response generation with synonym replacement
EP3697297A4 (en) 2017-10-19 2020-12-16 Facebook Technologies, Inc. SYSTEMS AND METHODS FOR IDENTIFYING BIOLOGICAL STRUCTURES ASSOCIATED WITH NEUROMUSCULAR SOURCE SIGNALS
US11150730B1 (en) 2019-04-30 2021-10-19 Facebook Technologies, Llc Devices, systems, and methods for controlling computing devices via neuromuscular signals of users
US11907423B2 (en) 2019-11-25 2024-02-20 Meta Platforms Technologies, Llc Systems and methods for contextualized interactions with an environment
US11961494B1 (en) 2019-03-29 2024-04-16 Meta Platforms Technologies, Llc Electromagnetic interference reduction in extended reality environments
US11493993B2 (en) 2019-09-04 2022-11-08 Meta Platforms Technologies, Llc Systems, methods, and interfaces for performing inputs based on neuromuscular control
US10937414B2 (en) * 2018-05-08 2021-03-02 Facebook Technologies, Llc Systems and methods for text input using neuromuscular information
US11481030B2 (en) 2019-03-29 2022-10-25 Meta Platforms Technologies, Llc Methods and apparatus for gesture detection and classification
US10573298B2 (en) 2018-04-16 2020-02-25 Google Llc Automated assistants that accommodate multiple age groups and/or vocabulary levels
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US10622007B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US10592001B2 (en) 2018-05-08 2020-03-17 Facebook Technologies, Llc Systems and methods for improved speech recognition using neuromuscular information
US10896688B2 (en) * 2018-05-10 2021-01-19 International Business Machines Corporation Real-time conversation analysis system
JP2021529382A (ja) 2018-06-19 2021-10-28 エリプシス・ヘルス・インコーポレイテッド 精神的健康評価のためのシステム及び方法
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11120226B1 (en) 2018-09-04 2021-09-14 ClearCare, Inc. Conversation facilitation system for mitigating loneliness
US11633103B1 (en) 2018-08-10 2023-04-25 ClearCare, Inc. Automatic in-home senior care system augmented with internet of things technologies
KR102225918B1 (ko) * 2018-08-13 2021-03-11 엘지전자 주식회사 인공 지능 기기
EP4241661A1 (en) 2018-08-31 2023-09-13 Facebook Technologies, LLC Camera-guided interpretation of neuromuscular signals
US11631401B1 (en) 2018-09-04 2023-04-18 ClearCare, Inc. Conversation system for detecting a dangerous mental or physical condition
EP3853698A4 (en) 2018-09-20 2021-11-17 Facebook Technologies, LLC NEUROMUSCULAR TEXT ENTRY, WRITING AND DRAWING IN SYSTEMS WITH EXTENDED REALITY
CN113423341A (zh) 2018-11-27 2021-09-21 脸谱科技有限责任公司 用于可穿戴电极传感器系统的自动校准的方法和装置
US11074913B2 (en) 2019-01-03 2021-07-27 International Business Machines Corporation Understanding user sentiment using implicit user feedback in adaptive dialog systems
US11164575B2 (en) * 2019-01-04 2021-11-02 International Business Machines Corporation Methods and systems for managing voice response systems to optimize responses
KR20190089128A (ko) * 2019-07-10 2019-07-30 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
KR20210050901A (ko) * 2019-10-29 2021-05-10 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
US11868531B1 (en) 2021-04-08 2024-01-09 Meta Platforms Technologies, Llc Wearable device providing for thumb-to-finger-based input gestures detected based on neuromuscular signals, and systems and methods of use thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1283843A (zh) * 1999-08-10 2001-02-14 国际商业机器公司 会话数据开采
CN1321296A (zh) * 1998-10-02 2001-11-07 国际商业机器公司 通过会话虚拟机进行会话式计算
CN1419686A (zh) * 2000-10-30 2003-05-21 皇家菲利浦电子有限公司 模拟人际交互并利用相关数据装载外部数据库的用户接口/娱乐设备
CN1474379A (zh) * 2002-07-02 2004-02-11 �ձ������ȷ湫˾ 语音识别/响应系统、语音/识别响应程序及其记录介质
US20110283190A1 (en) * 2010-05-13 2011-11-17 Alexander Poltorak Electronic personal interactive device
JP5045486B2 (ja) * 2008-02-19 2012-10-10 トヨタ自動車株式会社 対話装置及びプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030039648A1 (en) * 1998-09-16 2003-02-27 Genentech, Inc. Compositions and methods for the diagnosis and treatment of tumor
US6144938A (en) * 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
US7224790B1 (en) * 1999-05-27 2007-05-29 Sbc Technology Resources, Inc. Method to identify and categorize customer's goals and behaviors within a customer service center environment
US7222074B2 (en) 2001-06-20 2007-05-22 Guojun Zhou Psycho-physical state sensitive voice dialogue system
US7684990B2 (en) * 2005-04-29 2010-03-23 Nuance Communications, Inc. Method and apparatus for multiple value confirmation and correction in spoken dialog systems
US8473618B2 (en) * 2006-09-19 2013-06-25 Motorola Solutions, Inc. Method and system for processing multiple communication sessions in a communication network
US20080096533A1 (en) * 2006-10-24 2008-04-24 Kallideas Spa Virtual Assistant With Real-Time Emotions
US7933389B2 (en) * 2006-12-19 2011-04-26 International Business Machines Corporation System and method generating voice sites
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US20090234655A1 (en) 2008-03-13 2009-09-17 Jason Kwon Mobile electronic device with active speech recognition
ES2675096T3 (es) * 2009-07-28 2018-07-06 Chemstar Corporation Conservante floral
US8326624B2 (en) 2009-10-26 2012-12-04 International Business Machines Corporation Detecting and communicating biometrics of recorded voice during transcription process
US9262668B2 (en) * 2010-05-21 2016-02-16 Honeywell International Inc. Distant face recognition system
US20120046948A1 (en) * 2010-08-23 2012-02-23 Leddy Patrick J Method and apparatus for generating and distributing custom voice recordings of printed text
WO2012135226A1 (en) 2011-03-31 2012-10-04 Microsoft Corporation Augmented conversational understanding architecture
US20140191939A1 (en) * 2013-01-09 2014-07-10 Microsoft Corporation Using nonverbal communication in determining actions
US9134792B2 (en) 2013-01-14 2015-09-15 Qualcomm Incorporated Leveraging physical handshaking in head mounted displays
US9990176B1 (en) * 2016-06-28 2018-06-05 Amazon Technologies, Inc. Latency reduction for content playback

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1321296A (zh) * 1998-10-02 2001-11-07 国际商业机器公司 通过会话虚拟机进行会话式计算
CN1283843A (zh) * 1999-08-10 2001-02-14 国际商业机器公司 会话数据开采
CN1419686A (zh) * 2000-10-30 2003-05-21 皇家菲利浦电子有限公司 模拟人际交互并利用相关数据装载外部数据库的用户接口/娱乐设备
CN1474379A (zh) * 2002-07-02 2004-02-11 �ձ������ȷ湫˾ 语音识别/响应系统、语音/识别响应程序及其记录介质
JP5045486B2 (ja) * 2008-02-19 2012-10-10 トヨタ自動車株式会社 対話装置及びプログラム
US20110283190A1 (en) * 2010-05-13 2011-11-17 Alexander Poltorak Electronic personal interactive device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112292674A (zh) * 2018-04-20 2021-01-29 脸谱公司 为助理系统处理多模态用户输入
US12001862B1 (en) 2018-09-19 2024-06-04 Meta Platforms, Inc. Disambiguating user input with memorization for improved user assistance
US12008802B2 (en) 2021-06-29 2024-06-11 Meta Platforms, Inc. Execution engine for compositional entity resolution for assistant systems

Also Published As

Publication number Publication date
US20180240459A1 (en) 2018-08-23
WO2016065020A3 (en) 2016-06-16
US10311869B2 (en) 2019-06-04
EP3210096A4 (en) 2018-07-04
EP3210096B1 (en) 2019-05-15
EP3210096A2 (en) 2017-08-30
WO2016065020A2 (en) 2016-04-28

Similar Documents

Publication Publication Date Title
CN107003723A (zh) 用于会话系统中的响应选择和组成的自动化的方法和系统
Cahn CHATBOT: Architecture, design, & development
CN108320733B (zh) 语音数据处理方法及装置、存储介质、电子设备
US11120790B2 (en) Multi-assistant natural language input processing
US10020076B1 (en) Personal assistant computing system monitoring
US20210090575A1 (en) Multi-assistant natural language input processing
CN114556354A (zh) 自动确定和呈现来自事件的个性化动作项
Bojanić et al. Call redistribution for a call center based on speech emotion recognition
US20200066264A1 (en) Intelligent hearing aid
US11070644B1 (en) Resource grouped architecture for profile switching
CN114051639A (zh) 使用说话者基线进行情绪检测
EP3923198A1 (en) Method and apparatus for processing emotion information
US11393477B2 (en) Multi-assistant natural language input processing to determine a voice model for synthesized speech
Sanders et al. Phonological distance measures
US11862170B2 (en) Sensitive data control
US11990122B2 (en) User-system dialog expansion
Cave et al. The use of speech recognition technology by people living with amyotrophic lateral sclerosis: a scoping review
Blair et al. It Didn't Sound Good with My Cochlear Implants: Understanding the Challenges of Using Smart Assistants for Deaf and Hard of Hearing Users
Castro et al. Using network science measures to predict the lexical decision performance of adults who stutter
Schmitt et al. Towards adaptive spoken dialog systems
Stappen et al. Context modelling using hierarchical attention networks for sentiment and self-assessed emotion detection in spoken narratives
Bleakley et al. Exploring smart speaker user experience for people who stammer
Tran Neural models for integrating prosody in spoken language understanding
Qadri et al. A critical insight into multi-languages speech emotion databases
Gupta et al. REDE-Detecting human emotions using CNN and RASA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170801

RJ01 Rejection of invention patent application after publication