CN106663426A - 生成对社交会话输入的计算机响应 - Google Patents
生成对社交会话输入的计算机响应 Download PDFInfo
- Publication number
- CN106663426A CN106663426A CN201580036274.9A CN201580036274A CN106663426A CN 106663426 A CN106663426 A CN 106663426A CN 201580036274 A CN201580036274 A CN 201580036274A CN 106663426 A CN106663426 A CN 106663426A
- Authority
- CN
- China
- Prior art keywords
- input
- session
- grader
- data
- conversation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 title claims abstract description 92
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims description 49
- 230000015654 memory Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 9
- 239000000463 material Substances 0.000 claims description 4
- 230000036651 mood Effects 0.000 claims description 4
- 238000001467 acupuncture Methods 0.000 claims 1
- 238000013500 data storage Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 28
- 230000003993 interaction Effects 0.000 abstract description 2
- 241000282412 Homo Species 0.000 abstract 1
- 238000002372 labelling Methods 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 17
- 230000000712 assembly Effects 0.000 description 7
- 238000000429 assembly Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000004148 unit process Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
人和计算机系统之间的会话交互可以由计算机系统提供,该计算机系统按照会话类型将输入分类,并且为会话类型提供人类创作的响应。输入分类可以使用经训练的二元分类器而被执行。训练可以通过将输入标记为会话类型的肯定示例或否定示例而被执行。会话响应可以由标记在训练分类器时使用的输入的相同个体创作。在一些情况下,训练分类器的过程可以导致新的会话类型的提出,人类作者可以针对该新的会话类型为新分类器标记输入以及为用于该新的会话类型的响应编写内容。
Description
背景技术
使计算机向来自个人的会话输入(即,作为会话的自然语言输入)提供适当的会话响应以使得计算机的响应产生动人的用户体验是一个挑战。挑战的一部分是考虑到自然语言固有的变化而理解输入。挑战的另一部分是确保对输入的任何响应是适当的。许多因素影响响应是否被认为是适当的,诸如词汇选择、音调、与“个性”或品牌化的一致性,并且影响响应是否是娱乐的、机智的、动人的、非冒犯性的等。
在一些系统中,通过诸如通过使用正则表达式而手动地指定模式并将人工创作的内容与那些模式相关联来解决这种挑战。如果输入匹配正则表达式,则与匹配的正则表达式相关联的内容可以被提供作为响应。这样的系统由具有编写和分析正则表达式的专门技能的人(通常是计算机程序员)开发,以及由具有为响应编写适当内容的技能的其他人(通常是内容编辑者)开发。
在一些系统中,通过从大数据集挖掘会话而自动地生成响应来解决这种挑战。如果输入匹配一个或多个先前会话的输入,则可以基于来自一个或多个先前会话的对该输入的任何响应来自动地生成响应。在这样的系统中,自动生成的响应在计算机产生响应之前不由人类审查,这增加了生成不适当响应的风险。
发明内容
本发明内容被提供以按照简化的形式介绍对概念的选择,这些概念下面在具体实施方式中被进一步描述。本发明内容并未旨在标识所要求保护的主题的关键特征或基本特征,也并未旨在限制所要求保护的主题的范围。
人和计算机系统之间的会话交互可以由按照会话类型将输入分类并且为会话类型提供人类创作的响应的计算机系统提供。输入分类可以使用经训练的二元分类器而被执行。训练可以通过将输入标记为会话类型的肯定示例或否定示例而被执行。会话响应可以由标记在训练分类器中使用的输入的相同个体创作。在一些情况下,训练分类器的过程可以导致新的会话类型的提出,人类作者可以针对该新的会话类型为新分类器标记输入以及为用于该新的会话类型的响应编写内容。
本发明可以被体现为计算机系统、被体现为这样的计算机系统的任何单独的组件、被体现为由这样的计算机系统或这样的计算机系统的任何单独的组件执行的过程,或者被体现为包括计算机存储装置的制品,其用来存储计算机程序指令并且当计算机程序指令被计算机处理时将那些计算机配置为提供这样的计算机系统或这种计算机系统的任何单独组件。
在下面的描述中,参考形成其一部分的附图,并且其中通过图示的方法示出了该技术的具体示例实现方式。应理解的是,在不脱离本公开的范围的情况下,可以利用其他实施例并且可以进行结构改变。
附图说明
图1是其中计算机系统支持生成对会话输入的响应的示例应用环境的框图。
图2是描述输入处理模块的示例实现方式的数据流图。
图3是描述输入处理模块的示例操作的流程图。
图4是描述训练过程的示例实现方式的流程图。
图5是训练处理模块的示例实现方式的数据流图。
图6是可用来实现这样的系统的组件的示例计算机的框图。
具体实施方式
以下部分描述了支持生成对会话输入的响应的计算机的示例操作环境。
参照图1,计算机100从实体104接收会话输入102。会话输入102包括旨在向输入的接收者传达意思的数据。会话输入可以通过各种设备和处理中的任何设备和处理而被接收。会话输入的简单示例是“西雅图今天的天气是什么?”。
响应于会话输入102,计算机100生成会话响应106。会话响应106包括旨在向提供了会话输入102的实体104传达意义的数据。会话响应106可以通过各种设备和处理中的任何设备和处理而被递送给实体104。会话响应的简单示例是“今天西雅图在下雨”。
为了产生会话响应,计算机100包括输入处理模块108,其示例实现方式在下面结合图2和图3被更详细地描述。
输入处理模块108具有使用训练过程而被设置的参数110。训练过程通过训练处理模块112而被实现。训练处理模块具有接收训练数据114的输入以及提供参数110的输出。下面结合图4和图5更详细地描述训练处理模块的示例实现方式。
在图1中,计算机100包括输入处理模块108和训练处理模块112两者。计算机100可以包括一个或多个不同的通用计算机或其他不同的计算设备,其中的每个可以包括一个或多个处理器或处理设备。因此,模块108和112可以在同一计算设备上或在分离的计算设备上,或它们的部分可以在同一计算设备上。每个模块108和112可以在一个或多个计算设备上。
在图1中,在一种实现方式中,训练处理模块112可以直接更新输入处理模块的参数。在另一实现方式中,训练处理模块可以产生与输入处理模块分离的更新后的参数,并且然后不时地在输入处理模块中传送更新后的参数。
在一些实施方式中,由训练处理模块进行训练可以发生一次。在其他实现方式中,训练可以作为正在进行的过程而被执行,并且输入处理模块的参数可以不时地(诸如周期性地)被更新。
训练处理模块可以产生由不同计算设备上的多个不同输入处理模块使用并由此被这些输入处理模块共享的一个参数集。多个不同的训练处理模块可以产生不同的参数集,无论是针对不同的输入处理模块还是将被从一个输入处理模块选择并且被该输入处理模块使用,例如,针对一个最终用户或针对不同的最终用户的不同情况。
图1还示出了计算机100接收会话输入102并且向实体104提供会话响应106。实体104通常是个人。
会话输入102通常是自然语言中的一个或多个单词或短语。其他输入可以包括但不限于常规地用于传达含义的符号,但是其可以不被正式地识别为自然语言的一部分,诸如数学符号、表情符号等。与会话输入有关的其他数据可以包括来自输入设备的姿势数据、来自可穿戴传感器和环境传感器的传感器数据、图像数据、视频数据和/或音频数据,还可以从这些提取各种元数据。与实体的姿势、语调、面部表情、可能的情绪等有关的元数据可以是有用的。
这样的输入可以按照许多方式被提供。例如,实体可以在键盘上键入。实体可以向麦克风中说话,并且计算机100可以执行语音识别。实体可以提供图像或视频数据,并且计算机100可以执行图像识别或其他图像处理。实体可以提供文本数据,并且计算机100可以处理该文本以提取单词和短语。
会话响应106通常是自然语言中的一个或多个单词或短语。其他输入可以包括但不限于常规地用于传达含义的符号,但是其可以不被正式地识别为自然语言的一部分,诸如数学符号、表情符号等。也可以针对与向用户的响应的通信相关的各种目的而生成其他数据。
可以按照许多方式提供这样的会话输出。例如,响应可以作为文本被显示在显示屏上。可以使用语音生成来处理响应,以提供在扬声器或耳机上被播放的音频数据。如果响应不限于文本,则响应可以被转换为其它图像数据,并且图像数据可被显示。例如,这样的图像数据可以包括示出了该实体的姿势和面部表情的实体的化身。可以根据由用户选择的期望的交互格式(诸如盲文、打印或其他类型的输出设备)来生成其他输出格式。
计算机100或其部分可以是可以由实体104使用的设备(未示出)的一部分,或者可以与由实体104使用的设备分离。
例如,实体可以使用可能地在触摸屏显示器上具有麦克风、扬声器和键盘的手持设备(诸如移动电话)。这样的手持设备通常包括计算机。在一种实现方式中,手持设备上的计算机可以包括输入处理模块108。在另一实现方式中,手持设备可以将会话输入102传送给另一计算设备上的输入处理模块;转而,该另一计算设备可以向手持设备提供会话响应106。手持设备和另一计算设备之间的连接可以通过任何种类的数据通信网络,诸如公共计算机网络、蜂窝电话连接等。类似于手持式装置,采用腕带、手表、耳机或眼镜的形式的可穿戴计算设备也可具有类似的配置。
作为另一示例,实体可以在汽车或其他车辆中,其可以具有麦克风和扬声器,以及可能的其它输入和输出设备。车辆可以包括车载计算机,其处理来自车辆中的各种设备的输入并向车辆中的各种设备提供输出。在一种实现方式中,车载计算机可以包括输入处理模块108。在另一实现方式中,车载计算机可以将输入数据传送给诸如通过蜂窝电话连接或卫星通信连接与车载计算机无线通信的另一计算设备上的输入处理模块。转而,其他计算设备可以将会话响应106传输给车载计算机。
作为另一示例,实体可以在使用家庭娱乐系统的家庭环境中,家庭娱乐系统可以包括许多设备,包括但不限于游戏机、机顶盒、智能电视或其他显示器,以及一个或多个手持设备,诸如智能电话、平板计算机和/或遥控器。这些设备中的任何一个或多个设备可以包括一个或多个输入设备,诸如麦克风、键盘或触摸屏显示器,从这些输入设备可以从环境中的实体接收会话输入。相同环境中的这些设备中的任何一个或多个设备还可以包括一个或多个输出设备,会话响应可以通过这些输出设备被提供给实体。这些设备中的一个或多个设备上的计算机可以包括输入处理模块108。这种计算机可以在与包括输入设备和/或输出设备的设备不同的设备中。各种设备之间的连接可以通过任何种类的数据通信网络,包括但不限于专用局域网、无线通信连接、蜂窝电话连接等。
现在已经描述了示例操作环境,现在将结合图2和图3描述图1中的输入处理模块108的示例实现方式的更多细节。
输入处理模块包括多个分类器200,每个分类器用于不同的会话类型。每个分类器具有接收从输入数据导出的特征数据202的输入。每个分类器具有提供指示应用于分类器的输入的特征数据是否与用于分类器的会话类型匹配的匹配数据204的输出。每个分类器具有与其他分类器的参数不同且响应于训练过程而被设置的参数。
可以在输入处理模块中使用各种类型的模式分类器中的任何类型的模式分类器,诸如决策树、神经网络、向量机等。一般而言,模式分类器接收由多个特征定义的输入,并且提供指示该输入多么好地匹配如下模式的输出:分类器已经被训练为匹配这些模式。一般而言,输出是在诸如0到1的定义范围内的分数,其使用相似性或距离度量或概率测度的形式被计算出。分类器的参数(诸如相似性或距离或概率度量的参数)通过训练过程而被设置。在一个示例实现方式中,可以使用二元分类器来实现分类器,该二元分类器使用逻辑回归分类方法。
由分类器使用的特征通常是输入被转换成的规范形式。对于会话输入,这样的特征可以包括诸如会话输入中的单词的形式、那些单词的顺序、那些单词的n元语法(n-gram)以及其他相关信息,诸如会话输入的源、可能可用的任何情绪或音调提示、环境数据、相关的关键词等。作为一个示例,特征可以包括所有出现的词,词的n元语法(例如,2或3词序列,诸如,对于“how old are you?”,示例n元语法是how_old,old_are,are_you等等),话语的单词长度,每个单次的词性(例如,“old”是形容词),描述相似单词集的嵌入(数字),描述输入的分析树等。
选择器206具有被连接以从分类器200接收匹配数据204的输入。选择器具有输出,该输出基于从分类器接收到的匹配数据204来从用于每个会话类型的会话响应的集合212提供会话响应208。会话响应208可以按照各种方式被生成。
在一个示例实现方式中,由分类器输出的匹配数据204是由分类器计算出的分数,并且选择器206选择与产生最佳分数的分类器相应的会话类型。作为另一个示例,可以考虑在最佳分数的范围内产生分数的所有分类器。如果存在会话类型的层级,则选择多个分类器尤其有用。如果更一般类型的分类器和更具体类型的分类器都产生合适的匹配分数,则可以基于具有更具体的会话类型的分类器来选择会话类型。阈值可被应用于所有分数,以确保分数足够高以指示会话输入的存在。转而,选择器访问会话响应的集合212以从为选择的会话类型存储的那些中选择会话响应。从集合中择会话响应可以按照各种方式被执行,诸如随机、伪随机、准随机选择、循环选择、最近最少使用、响应的反馈和评级等等。
用于每个会话类型的会话响应的集合212通常由具有为这样的服务创建内容的经验的个人创建。如下面更详细描述的,这些人类创作的响应可以由也参与通过向分类器的输入提供标签来训练分类器的个体创建。被应用于会话输入的标签指示会话输入是会话类型的肯定示例还是否定示例。集合212以将每个会话响应与会话类型相关联的方式存储会话响应。因此,集合212是代表会话响应/会话类型对的数据集,其可以按照允许鉴于会话类型来容易地访问和选择会话响应的各种方式中的任何方式被存储。会话响应通常使用字符串而被表示,其可以在长度上限于一定数量的字符以提供一致的存储格式。会话类型可以用任何标识符而被表示,诸如字母数字标识符,其可以与用于该会话类型的分类器直接或间接地相关联。
可以使用各种其他技术中的任何技术来基于由一组分类器输出的匹配数据204来从集合212选择会话响应。
在一些实现方式中,描述对话状态214的信息也可以被存储,并且转而被选择器206或分类器200使用。对话状态可以是描述一个或多个先前会话输入、会话响应和会话类型的数据。这样的信息被图示为由选择器206提供,但是也可以由分类器200或专门设计为跟踪会话状态的系统的另一组件提供。这样的信息被图示为被提供给分类器之一,但是也可以被提供给所有分类器、分类器的子集或未被提供给分类器。在一些实现方式中,会话状态可以被视为应用于分类器的特征202。用于当前处理的会话输入的会话类型的分类可以受到对话状态214的影响。备选地或组合地,对用于当前处理的会话输入的会话类型和会话响应的选择可以受到对话状态214的影响。作为实际示例,如果会话输入是“今天费城的天气如何?”,则生成与天气相关的会话响应。如果下一个会话输入是“明天如何?”,则会话状态信息214可以用来确保生成与天气相关的会话响应。例如,关于对话类型层级的信息可以与对话状态信息组合以做出这样的选择。
图3中的流程图描述了这一示例输入处理模块的操作。
在图3中,操作开始于接收300会话输入。从会话输入导出的特征被应用302到多个分类器的输入。从多个分类器接收304匹配数据,并将其用于选择306会话类型。然后基于选择的会话类型来输出308会话响应。
现在已经描述了输入处理模块,现在将更详细地描述用于分类器的训练过程的示例实现方式。
在一种实现方式中,使用用于常规分类器的常规训练过程,从已知的有限集合的会话类型和对应的示例开始。使用随机采样或一些其他方式,示例被应用于分类器,并且基于分类器的输出和被应用于分类器的示例之间的误差来调整分类器的参数。在针对给定会话类型训练了分类器之后,可以使用分类器来生成会话响应。
在一种实现方式中,分类器可以是二进制分类器,其可以使用主动学习过程被训练。在这样的过程中,训练通过选择400会话输入的一组(例如,十个)肯定示例和一组(例如,十个)否定示例而开始。肯定示例是与分类器的会话类型匹配的会话输入。例如,如果用于分类器的会话类型是“关于一地的天气的问题”,那么“今天西雅图的天气是什么?”是肯定示例;“你多大了?”是否定示例。在使用二进制分类器的一种实现方式中,标签“0”或“1”被应用于示例话语,其中“1”指示分类器应该在这一话语上触发,并且“0”指示分类器不应该触发。
通过使用常规技术、使用肯定示例和否定示例的集合设置分类器的初始参数来初始化402分类器。给定初始化的分类器,通过将会话输入的训练集合(每个被称为训练输入)应用404于分类器来执行训练。训练集可以从各种源被收集,诸如已经结合服务而被存储的实际会话输入。在这一示例中,训练输入是从实际会话输入导出的特征。每个训练输入导致来自分类器的得分。如果结果明显是肯定示例或否定示例,即在分数范围的任一极值的阈值量内,则可以自动地标记训练输入;然而,这样的自动标记可以产生并且然后加强错误,并且不是优选的。否则,具有不明确结果(既不是肯定匹配也不是否定匹配)的任何训练输入被呈现406给个体,以用于标记为用于该分类器的会话类型的肯定示例或否定示例。然后使用这些附加训练输入的标记来更新408分类器。然后,该过程可以被重复一次或多次,如由至步骤404的箭头指示的那样。
图5是在图4中描述的操作中使用的训练处理模块的示例实现方式的数据流图。在图5中,会话输入的集合500被存储在计算机可读存储装置中。每个存储的输入被称为训练输入。训练输入可以与标签和对应的会话类型相关联。利用多种训练类型,训练输入可以与多个标签相关联。训练模块502接收从会话输入和标签506导出的特征504。这些用于设置用于会话类型的分类器510的参数508。
标签通常由审查训练输入并将它们标记为会话类型的肯定示例或否定示例的个体512输入。通过用户设备上的用户界面516向个体512呈现训练输入和会话类型的指示(在514处示出)。个体通过用户界面516为该训练输入提供标签518。
个体512还可以通过用户界面516或另一用户界面,在相同或不同的用户设备上提供用于会话类型的会话响应520。这些会话响应被存储在输入处理模块中,诸如在图2中所示的。
通过使相同的个体准备会话响应和会话输入的标签二者,系统更有可能具有适于给定输入的响应。这样的能力通过具有使用标记的输入而被训练的会话类型的分类器和按照会话类型被选择的会话响应而被提供。换句话说,计算机提供对会话输入的适当响应,因为生成会话响应的个体是为会话输入提供标签的相同个体。通过使用由标记的会话输入的肯定示例和否定示例而被训练的每个会话类型的分类器,内容编辑者可以是标记者和编辑者两者。
使用会话输入的大语料库,计算机可以通过使用各种形式的聚类算法来标识可能的会话类型。可以基于其中放置有话语的会话类型来选择用于训练的样本,并且还可以标识新的会话类型。聚类算法可以将类似的会话输入分组为一个集合,从而产生多个不同的集合,其中每个集合具有类似的会话输入。来自集合的样本可以用作用于该集合的对应的会话类型的肯定示例,来自其他集合的样本可以用作否定示例。
作为一个示例实现方式,自动聚类包括将k均值应用于话语的向量空间表示,例如,使用词袋向量,或者使用潜在语义分析(LSA)或潜在狄利克雷分配(LDA)的对话语的投影。在另一示例实现方式中,可以使用现有的分类器,并排除分类器触发的话语(即,已知会话类型的话语);不会导致分类器触发的剩余话语可以与新的会话类型相关联。
在一种实现方式中,分类器还可以被扩展为包括用于社交会话的单词和短语的类别。如上所述,会话类型可以被分组成层级。这样的层级可以基于与会话输入相关联的关键字或从会话输入的集合导出的其他类别信息。这样的类别可以被自动地标识,例如,使用自动聚类。作为特定示例,可以通过将单词投影到连续空间中并在该连续空间中聚类来执行自动聚类。例如,可以使用LSA、LDA或利用神经网络学习的单词嵌入来执行投影,并且然后可以使用k均值来执行聚类。用于引入类别的另一种方法是内容编辑者提供示例单词/短语,并自动地扩展类别。例如,如果内容编辑者提供了“出生”、“长大”、“童年”,则可以自动添加更多的术语,如“在…被抚养”、“我来自”、“在…上学”。也可以使用聚类技术的半监督的变体(例如LSA,LDA或词嵌入)。
在一个方面中,使用用于基于将从会话输入导出的特征应用于多个分类器来选择会话响应的装置来处理会话输入。每个分类器与会话类型相关联。会话响应也与会话类型相关联。
在另一方面中,会话输入可以通过将表示会话输入的输入数据接收到存储器中而被处理。从输入数据导出的特征数据可以被应用于多个分类器,每个分类器表示来自多个会话类型中的会话类型。分类器响应于输入特征数据来输出匹配数据。根据由分类器输出的匹配数据,根据来自多个会话类型中的一个或多个会话类型来选择会话响应。
在本节中的前述方面中的任何方面中,特征可以包括从会话输入生成的n元语法。这样的特征可以包括指示与会话输入相关的情绪的数据。这样的特征可以包括指示用于会话输入的主题的一个或多个类别的数据。
在本节中的前述方面中的任何方面中,每个分类器可以是二进制分类器,从而使得响应于特征数据输出的匹配数据表示特征数据匹配如下会话输入的概率:该会话输入被标记为与二进制分类器相关联的会话类型的肯定示例。
在本节中的前述方面中的任何方面中,特征数据可以从会话输入和与会话输入相关联的其他信息被导出。
在本节中的前述方面中的任何方面中,会话响应可以从存储用于多个会话类型的多个会话响应的集合被选择。
在本节中的前述方面中的任何方面中,可以根据由分类器输出的匹配数据来从多个会话类型中选择一个或多个会话类型。可以根据选择的一个或多个会话类型来选择会话响应。可以基于来自由分类器输出的匹配数据中的分数来选择一个或多个会话类型。
在本节中的前述方面中的任何方面中,每个分类器可以输出分数。分数可以在任何值范围内,其中某些值指示特征与由分类器表示的会话类型的匹配,其中某些值指示不存在匹配。指示匹配的值可以是范围的极值,例如该范围中的最大值。备选地,分数可以指示与会话类型匹配的概率。
在本节中的前述方面中的任何方面中,可以维持对话状态信息。还可以基于维护的对话状态信息来选择会话响应。还可以基于维护的状态信息和会话类型层级信息来选择会话响应。
在本节中的前述方面中的任何方面中,来自会话输入的实体的输入和对会话响应的该实体的输出可以在与根据会话输入产生特征、将那些特征应用于分类器并且选择会话响应的其他设备和计算机分离的一个或多个设备上被执行。在这样的情况下,接收输入的设备被连接到一个或多个计算机以传输关于会话输入的信息。类似地,接收具有关于会话响应的信息的传输的设备被连接到一个或多个计算机以接收这样的传输。每个这样的设备或计算机包括存储器、通过其接收输入数据的输入、被配置为处理输入数据的处理器以及可以通过其将输出数据提供给另一设备或计算机的输出。
在本节中的前述方面中的任何方面中,由实体用来提供会话输入和接收会话响应的一个或多个设备可以是多个设备中的任何设备,包括但不限于移动电话、平板计算机、手持计算设备、基于汽车的计算机、膝上型计算机、便携式计算机、服务器计算机、笔记本计算机、板式计算机、台式计算机、家庭娱乐系统、游戏机、用于有线卫星或其他电视接收的机顶盒、电视、智能显示设备等。
在前述方面中的任何方面中,可以训练分类器以将会话输入分类成会话类型。这样的训练过程可以通过将第一数目的会话输入标记为会话类型的肯定示例并将第二数目的会话输入标记为会话类型的否定示例而被实现。分类器使用标记的会话输入而被构建。会话输入的语料库被访问。来自语料库的会话输入被应用于分类器以获得来自分类器的针对每个会话输入的输出。基于来自分类器的针对会话输入的输出,向一个或多个个体呈现附加的会话输入以用于标记。从一个或多个个体接收用于呈现的附加会话输入的标签。使用附加的标记的会话输入来重新训练分类器。
在涉及分类器的训练的本节的前述方面中的任何方面中,可以使用重新训练的分类器、使用重复应用、呈现、接收和重新训练的步骤的过程来训练分类器。
在前述方面中的任何方面中,针对与一个或多个个体对其执行标记的分类器相关联的会话类型的会话响应可以从执行了标记的个体被接收。
在前述方面中的任何方面中,可以从会话输入的语料库识别附加会话类型。例如,语料库中的会话输入可以被聚类,并且会话类型可以被分配给集群。作为另一示例,会话输入可被应用于多个分类器。标识多个分类器中没有一个分类器指示匹配的会话输入。将一个或多个新的会话类型分配给标识出的会话输入。
在前述方面中的任何方面中,呈现用于标记的会话输入可以包括根据分类器的输出是否指示对分类器的附加会话输入既不是肯定匹配也不是否定匹配来选择要被呈现的附加会话输入。
在前述方面中的任何方面中,分类器的会话类型可以被包括在会话类型的层级中。可以基于具有高于阈值的分数的分类器来选择会话类型,并且在更一般的会话类型上选择更具体的会话类型。对会话输入的语料库的自动聚类可以为会话输入提供类别信息。
本部分的前述方面中的任何方面可以在一个或多个计算机系统中被体现,作为这样的计算机系统的任何单独的一个或多个组件,作为由一个或多个这样的计算机系统或者这样的计算机系统的任何单独的组件执行的过程,或作为包括计算机存储装置的一个或多个制品,该计算机存储装置存储有计算机程序指令并且当计算机程序指令由一个或多个计算机处理时,将那些计算机配置为提供这样的计算机系统或这样的计算机系统的任何单独的组件。
在结合图1至图5而被描述的示例实现方式中,可以存在两个应用,一个用于建立分类器(例如,训练处理模块),并且另一个用于使用经训练的分类器以用于响应于会话输入(例如,输入处理模块)。这些应用中的每个应用可以包括实现该应用的不同组件的多个应用。每个应用可以被设计为在单独的平台(例如,具有操作系统的计算机,该操作系统管理在计算机上运行的应用对计算机的资源的访问)上执行。计算机如下面结合图6所描述的而被实现。
图6图示了可以用来实现图1至图5的系统的各种组件的示例计算机。计算机可以是各种通用或专用计算硬件配置中的任何一种。可以使用的计算机类型的一些示例包括但不限于个人计算机、游戏机、机顶盒、手持或膝上型设备(例如,媒体播放器、笔记本计算机、平板计算机、蜂窝电话、个人数据助理、语音记录器)、服务器计算机、多处理器系统、基于微处理器的系统、可编程消费者电子产品、网络PC、小型计算机、大型计算机和包括上述类型的计算机或设备中的任何类型的分布式计算环境等。
参考图6,示例计算机600包括至少一个处理单元602和存储器604。该计算机可以具有多个处理单元602。处理单元602可以包括一个或多个处理核(未示出),其彼此独立地操作。诸如图形处理单元620的附加协处理单元也可以存在于计算机中。存储器604可以是易失性的(诸如动态随机存取存储器(DRAM)或其他随机存取存储器设备)、非易失性的(诸如只读存储器、闪存等)或者这两者的某种组合。存储器的这种配置在图6中由虚线606示出。计算机600可以包括附加存储装置(可移除和/或不可移除),附加存储装置包括但不限于磁记录或光学记录的盘或带。这样的附加存储装置在图6中由可移除存储装置608和不可移除存储装置610示出。图6中的各种组件通常通过诸如一个或多个总线630的互连机制而互连。
计算机存储介质是其中通过计算机可以将数据存储在可寻址物理存储位置中和从可寻址物理存储位置取回数据的任何介质。计算机存储介质包括易失性和非易失性存储器,以及可移除和不可移除存储介质。存储器604和606,可移除存储装置608和不可移除存储装置610都是计算机存储介质的示例。计算机存储介质的一些示例是RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学或磁光记录的存储设备、磁带盒、磁带、磁盘存储装置或其他磁存储设备。计算机存储介质和通信介质是相互排斥的介质类别。
计算机600还可以包括允许计算机通过通信介质与其他设备通信的一个或多个通信连接612。通信介质通常通过在物质上传播经调制的数据信号(诸如载波或其它传输机制)来在有线或无线物质上传输计算机程序指令、数据结构、程序模块或其他数据。术语“经调制的数据信号”意指使其特性中的一个或多个特性以对信号中的信息进行编码的方式被设置或改变、由此改变信号的接收设备的配置或状态的信号。作为示例而非限制,通信介质包括诸如有线网络或直接有线连接的有线介质以及诸如声学、RF、红外和其他无线介质的无线介质。通信连接612是与通信介质对接以通过通信介质传输数据和从通信介质接收数据的设备,诸如网络接口或无线电发射机。
计算机600可以具有各种输入设备614,诸如键盘、鼠标、笔、相机、触摸输入设备等。还可以包括一个或多个输出设备616,诸如显示器、扬声器、打印机等。所有这些设备在本领域中是公知的,并且在这里不需要详细讨论。输入设备和输出设备可以是包含图6中的计算机的各种组件的外壳的一部分,或者可以是与外壳分离的并且通过各种连接接口(诸如串行总线、无线通信连接等)而被连接到计算机。各种输入设备和输出设备可以实现自然用户界面(NUI),其是使得用户能够以“自然”方式与设备交互的任何界面技术,没有由诸如鼠标、键盘、遥控器等输入设备施加的人为限制。
NUI方法的示例包括依赖于语音识别、触摸和指示笔识别、屏幕上和与屏幕相邻的姿势识别、悬浮姿势、头部和眼睛跟踪、语音和讲话、视觉、触摸、手势和机器智能,并且可以包括使用触敏显示器、语音和讲话识别、意图和目标理解、使用深度相机(诸如立体相机系统、红外相机系统和其它相机系统及其组合)的运动姿势检测、使用加速度计或陀螺仪的运动姿势检测、面部识别、三维显示、“头部、眼睛和注视跟踪”、沉浸式增强现实和虚拟现实系统,所有这些提供更自然的接口,以及使用电场感测电极来感测脑活动的技术(EEG和相关方法)的技术。
各种存储装置610、通信连接612、输出设备616和输入设备614可以与计算机的其余部分一起被集成在外壳内,或者可以通过计算机上的输入/输出接口设备而被连接,在这种情况下,标号810、812、814和816视具体情况而定可以指示用于连接到设备的接口或者设备本身的接口。
诸如在上面的图1至图5中描述的并且在计算机上操作的系统的每个组件(其也可以被称为“模块”或“引擎”等)可以使用一个或多个计算机的一个或多个处理单元以及由所述一个或多个处理单元处理的一个或多个计算机程序而被实现。计算机程序包括计算机可执行指令和/或计算机解释指令(诸如程序模块),这些指令由一个或多个计算机中的一个或多个处理单元处理。通常,这样的指令定义例程、程序、对象、组件、数据结构等,其当由处理单元处理时指令处理单元对数据执行操作或将处理器或计算机配置为实现各种组件或数据结构。这样的组件通过访问存储装置或存储器中的数据并且将数据存储在存储装置或存储器中而具有输入和输出。
这种计算机系统可以在分布式计算环境中被实施,其中操作由通过通信网络链接的多个计算机执行。在分布式计算环境中,计算机程序可以位于本地和远程的计算机存储介质中。
备选地或者附加地,在此描述的各种组件中的一个或多个组件的功能可以至少部分地由一个或多个硬件逻辑组件执行。例如但不限于,可以被使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC),专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。
在所附权利要求的前序中的术语“制品”、“过程”、“机器”和“物质组成”旨在将权利要求限制为被认为落入通过在35U.S.C.§101中使用这些术语而被定义的可专利的主题的范围内的主题。
应当理解,所附权利要求中定义的主题不一定限于上述的具体实现方式。上述具体实现方式仅作为示例被公开。
Claims (15)
1.一种装置,包括:
输入设备,所述输入设备被配置为产生输入数据,所述输入数据表示会话输入;
存储器,所述存储器被布置为接收并且存储所述输入数据;
处理系统,所述处理系统被配置为使得从来自所述存储器的所述输入数据导出的特征数据被应用于多个分类器的输入,每个分类器表示来自多个会话类型中的会话类型并且响应于输入特征数据来输出匹配数据;
所述处理系统还被配置为将指示对所述会话输入的会话响应的数据接收到所述存储器中,所述数据根据由所述多个分类器输出的所述匹配数据而被选择;以及
输出设备,所述输出设备被配置为基于指示所述会话响应的接收的所述数据来呈现输出数据。
2.根据权利要求1所述的装置,其中,为了选择所述会话响应,所述处理系统还被配置为:
根据由所述分类器输出的所述匹配数据来从所述多个会话类型中选择一个或者多个会话类型;以及
根据选择的所述一个或者多个会话类型来生成所述会话响应。
3.根据权利要求1或者2中的任一权利要求所述的装置,其中所述特征包括从所述会话输入生成的n元语法。
4.根据前述权利要求中的任一权利要求所述的装置,其中所述特征包括指示与所述会话输入相关的情绪的数据。
5.根据前述权利要求中的任一权利要求所述的装置,其中所述特征包括指示用于所述会话输入的主题的一个或多个类别的数据。
6.根据前述权利要求中的任一权利要求所述的装置,其中所述处理系统还被配置为从所述会话输入和与所述会话输入相关联的其他信息导出所述特征数据。
7.根据前述权利要求中的任一权利要求所述的装置,其中每个分类器是二进制分类器,从而使得响应于所述特征数据而被输出的所述匹配数据表示所述特征数据与被标记为与所述二进制分类器相关联的所述会话类型的肯定示例的会话输入匹配的概率。
8.根据前述权利要求中的任一权利要求所述的装置,其中,为了选择所述会话响应,所述处理系统还被配置为从存储用于所述多个会话类型的多个会话响应的集合选择会话响应。
9.根据前述权利要求中的任一权利要求所述的装置,其中为了选择一个或多个会话类型,所述处理系统还被配置为从由所述分类器输出的所述匹配数据中选择具有最佳分数的会话类型。
10.根据前述权利要求中的任一权利要求所述的装置,其中所述处理系统还被配置为训练所述分类器以将会话输入分类到会话类型中。
11.根据前述权利要求中的任一权利要求所述的装置,其中,为了训练用于会话类型的分类器,所述处理系统还被配置为:
将第一数目的会话输入标记为所述会话类型的肯定示例并且将第二数目的会话输入标记为所述会话类型的否定示例;
使用标记的所述会话输入来构建分类器;
访问会话输入的语料库;
将来自所述语料库的会话输入应用于所述分类器以获得用于来自所述分类器的每个会话输入的输出;
基于来自用于所述会话输入的所述分类器的输出,向一个或多个个体呈现附加会话输入以用于标记;以及
从所述一个或多个个体接收用于呈现的所述附加会话输入的标签;以及
使用标记的所述附加会话输入来重新训练所述分类器。
12.根据权利要求11所述的装置,其中所述分类器包括用于与所述一个或多个个体针对其执行所述标记的分类器相关联的所述会话类型的,由所述一个或多个个体中的一个或多个个体准备的会话响应。
13.根据权利要求11所述的装置,其中所述处理系统还被配置为从所述会话输入的语料库标识附加会话类型。
14.一种方法,包括:
通过输入设备接收表示会话输入的输入数据并且将所述输入数据存储到存储器中;
处理系统使得从来自所述存储器的所述输入数据导出的特征数据被应用于多个分类器的输入,每个分类器表示来自多个会话类型中的会话类型并且响应于输入特征数据来输出匹配数据;
所述处理系统将指示对所述会话输入的会话响应的数据接收到所述存储器中,所述数据根据由所述多个分类器输出的所述匹配数据而被选择;以及
基于指示所述会话响应的接收的所述数据、通过输出设备来呈现输出数据。
15.一种制品,包括编码有计算机程序指令的计算机可读存储介质,所述计算机程序指令用于将处理系统配置为实现根据权利要求14所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/323,050 US9547471B2 (en) | 2014-07-03 | 2014-07-03 | Generating computer responses to social conversational inputs |
US14/323,050 | 2014-07-03 | ||
PCT/US2015/038923 WO2016004266A2 (en) | 2014-07-03 | 2015-07-02 | Generating computer responses to social conversational inputs |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106663426A true CN106663426A (zh) | 2017-05-10 |
Family
ID=53718156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580036274.9A Pending CN106663426A (zh) | 2014-07-03 | 2015-07-02 | 生成对社交会话输入的计算机响应 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9547471B2 (zh) |
EP (1) | EP3164864A2 (zh) |
JP (1) | JP2017527926A (zh) |
KR (1) | KR102333505B1 (zh) |
CN (1) | CN106663426A (zh) |
WO (1) | WO2016004266A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111857904A (zh) * | 2019-04-24 | 2020-10-30 | Abb瑞士股份有限公司 | 用于操作者的支持系统 |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9336193B2 (en) | 2012-08-30 | 2016-05-10 | Arria Data2Text Limited | Method and apparatus for updating a previously generated text |
US8762134B2 (en) | 2012-08-30 | 2014-06-24 | Arria Data2Text Limited | Method and apparatus for situational analysis text generation |
US8762133B2 (en) | 2012-08-30 | 2014-06-24 | Arria Data2Text Limited | Method and apparatus for alert validation |
US9405448B2 (en) | 2012-08-30 | 2016-08-02 | Arria Data2Text Limited | Method and apparatus for annotating a graphical output |
US9135244B2 (en) | 2012-08-30 | 2015-09-15 | Arria Data2Text Limited | Method and apparatus for configurable microplanning |
US9600471B2 (en) | 2012-11-02 | 2017-03-21 | Arria Data2Text Limited | Method and apparatus for aggregating with information generalization |
WO2014076525A1 (en) | 2012-11-16 | 2014-05-22 | Data2Text Limited | Method and apparatus for expressing time in an output text |
WO2014076524A1 (en) | 2012-11-16 | 2014-05-22 | Data2Text Limited | Method and apparatus for spatial descriptions in an output text |
US9990360B2 (en) | 2012-12-27 | 2018-06-05 | Arria Data2Text Limited | Method and apparatus for motion description |
US10115202B2 (en) | 2012-12-27 | 2018-10-30 | Arria Data2Text Limited | Method and apparatus for motion detection |
WO2014111753A1 (en) | 2013-01-15 | 2014-07-24 | Arria Data2Text Limited | Method and apparatus for document planning |
WO2015028844A1 (en) | 2013-08-29 | 2015-03-05 | Arria Data2Text Limited | Text generation from correlated alerts |
US9244894B1 (en) | 2013-09-16 | 2016-01-26 | Arria Data2Text Limited | Method and apparatus for interactive reports |
US9396181B1 (en) | 2013-09-16 | 2016-07-19 | Arria Data2Text Limited | Method, apparatus, and computer program product for user-directed reporting |
US10664558B2 (en) | 2014-04-18 | 2020-05-26 | Arria Data2Text Limited | Method and apparatus for document planning |
US10460720B2 (en) | 2015-01-03 | 2019-10-29 | Microsoft Technology Licensing, Llc. | Generation of language understanding systems and methods |
US10157178B2 (en) | 2015-02-06 | 2018-12-18 | International Business Machines Corporation | Identifying categories within textual data |
EP3441889A4 (en) * | 2016-04-08 | 2019-05-22 | Sony Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
US9864743B2 (en) * | 2016-04-29 | 2018-01-09 | Fujitsu Limited | Textual emotion detection |
US10445432B1 (en) | 2016-08-31 | 2019-10-15 | Arria Data2Text Limited | Method and apparatus for lightweight multilingual natural language realizer |
US10503767B2 (en) | 2016-09-13 | 2019-12-10 | Microsoft Technology Licensing, Llc | Computerized natural language query intent dispatching |
US10540513B2 (en) | 2016-09-13 | 2020-01-21 | Microsoft Technology Licensing, Llc | Natural language processor extension transmission data protection |
US10467347B1 (en) | 2016-10-31 | 2019-11-05 | Arria Data2Text Limited | Method and apparatus for natural language document orchestrator |
CN108021985B (zh) * | 2016-11-03 | 2022-05-10 | 北京如布科技有限公司 | 一种模型参数训练方法及装置 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
WO2018170876A1 (en) * | 2017-03-24 | 2018-09-27 | Microsoft Technology Licensing, Llc | A voice-based knowledge sharing application for chatbots |
WO2018212055A1 (ja) * | 2017-05-17 | 2018-11-22 | 日本電信電話株式会社 | ドキュメント識別装置、ドキュメント識別方法、プログラム |
JP6767322B2 (ja) * | 2017-08-18 | 2020-10-14 | ヤフー株式会社 | 出力制御装置、出力制御方法及び出力制御プログラム |
US20190066669A1 (en) * | 2017-08-29 | 2019-02-28 | Google Inc. | Graphical data selection and presentation of digital content |
US10607612B2 (en) | 2017-10-19 | 2020-03-31 | International Business Machines Corporation | Hierarchical intimacy for cognitive assistants |
US11886823B2 (en) * | 2018-02-01 | 2024-01-30 | International Business Machines Corporation | Dynamically constructing and configuring a conversational agent learning model |
JP7063230B2 (ja) * | 2018-10-25 | 2022-05-09 | トヨタ自動車株式会社 | コミュニケーション装置およびコミュニケーション装置の制御プログラム |
US11120225B2 (en) * | 2019-02-05 | 2021-09-14 | International Business Machines Corporation | Updating an online multi-domain sentence representation generation module of a text classification system |
US11270077B2 (en) * | 2019-05-13 | 2022-03-08 | International Business Machines Corporation | Routing text classifications within a cross-domain conversational service |
KR20190096853A (ko) * | 2019-07-30 | 2019-08-20 | 엘지전자 주식회사 | 음성 처리 방법 및 음성 처리 장치 |
CN110827798B (zh) * | 2019-11-12 | 2020-09-11 | 广州欢聊网络科技有限公司 | 一种音频信号处理的方法及装置 |
KR20210095431A (ko) * | 2020-01-23 | 2021-08-02 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
EP4252143A1 (en) * | 2020-11-30 | 2023-10-04 | Oracle International Corporation | Distance-based logit values for natural language processing |
US11972220B2 (en) | 2020-11-30 | 2024-04-30 | Oracle International Corporation | Enhanced logits for natural language processing |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1457041A (zh) * | 2002-05-10 | 2003-11-19 | 微软公司 | 为一个自然语言理解系统用来自动注解训练数据的一个系统 |
US20040204940A1 (en) * | 2001-07-18 | 2004-10-14 | Hiyan Alshawi | Spoken language understanding that incorporates prior knowledge into boosting |
CN1841380A (zh) * | 2005-03-31 | 2006-10-04 | 微软公司 | 用于改进搜索引擎相关性的数据挖掘技术 |
CN101010934A (zh) * | 2004-09-10 | 2007-08-01 | 微软公司 | 机器学习 |
US7280965B1 (en) * | 2003-04-04 | 2007-10-09 | At&T Corp. | Systems and methods for monitoring speech data labelers |
CN101178705A (zh) * | 2007-12-13 | 2008-05-14 | 中国电信股份有限公司 | 一种自然语言理解方法和人机交互智能系统 |
CN101189659A (zh) * | 2004-09-27 | 2008-05-28 | 罗伯特·博世公司 | 用于认知超负荷的设备用户的交互式对话 |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7412383B1 (en) * | 2003-04-04 | 2008-08-12 | At&T Corp | Reducing time for annotating speech data to develop a dialog application |
US20090119102A1 (en) * | 2007-11-01 | 2009-05-07 | At&T Labs | System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework |
JP2009110503A (ja) * | 2007-08-24 | 2009-05-21 | Robert Bosch Gmbh | 対話システムにおける統計的分類のための最適な選択戦略の方法及びシステム |
CN101488342A (zh) * | 2008-12-31 | 2009-07-22 | 广东协联科贸发展有限公司 | 人机语言交互演绎系统及人机语言交互需求应答的智能化实现方法 |
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
CN101743537A (zh) * | 2007-07-13 | 2010-06-16 | 微软公司 | 用于学习高效级联检测器的多实例修剪 |
CN102411611A (zh) * | 2011-10-15 | 2012-04-11 | 西安交通大学 | 一种面向即时交互文本的事件识别与跟踪方法 |
CN102637433A (zh) * | 2011-02-09 | 2012-08-15 | 富士通株式会社 | 识别语音信号中所承载的情感状态的方法和系统 |
CN102968409A (zh) * | 2012-11-23 | 2013-03-13 | 海信集团有限公司 | 智能人机交互语义分析方法及交互系统 |
CN103474065A (zh) * | 2013-09-24 | 2013-12-25 | 贵阳世纪恒通科技有限公司 | 基于自动分类技术的语音意图判定识别方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100486735B1 (ko) * | 2003-02-28 | 2005-05-03 | 삼성전자주식회사 | 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 |
US7596498B2 (en) | 2005-09-02 | 2009-09-29 | Microsoft Corporation | Monitoring, mining, and classifying electronically recordable conversations |
JP4755478B2 (ja) * | 2005-10-07 | 2011-08-24 | 日本電信電話株式会社 | 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体 |
US8321220B1 (en) * | 2005-11-30 | 2012-11-27 | At&T Intellectual Property Ii, L.P. | System and method of semi-supervised learning for spoken language understanding using semantic role labeling |
GB2433150B (en) * | 2005-12-08 | 2009-10-07 | Toshiba Res Europ Ltd | Method and apparatus for labelling speech |
US7844457B2 (en) * | 2007-02-20 | 2010-11-30 | Microsoft Corporation | Unsupervised labeling of sentence level accent |
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
US7987188B2 (en) * | 2007-08-23 | 2011-07-26 | Google Inc. | Domain-specific sentiment classification |
US8086549B2 (en) | 2007-11-09 | 2011-12-27 | Microsoft Corporation | Multi-label active learning |
US7958068B2 (en) * | 2007-12-12 | 2011-06-07 | International Business Machines Corporation | Method and apparatus for model-shared subspace boosting for multi-label classification |
US8239189B2 (en) * | 2008-02-26 | 2012-08-07 | Siemens Enterprise Communications Gmbh & Co. Kg | Method and system for estimating a sentiment for an entity |
US9129008B1 (en) * | 2008-11-10 | 2015-09-08 | Google Inc. | Sentiment-based classification of media content |
US20110106807A1 (en) * | 2009-10-30 | 2011-05-05 | Janya, Inc | Systems and methods for information integration through context-based entity disambiguation |
US8412530B2 (en) * | 2010-02-21 | 2013-04-02 | Nice Systems Ltd. | Method and apparatus for detection of sentiment in automated transcriptions |
US8589317B2 (en) | 2010-12-16 | 2013-11-19 | Microsoft Corporation | Human-assisted training of automated classifiers |
US8554701B1 (en) * | 2011-03-18 | 2013-10-08 | Amazon Technologies, Inc. | Determining sentiment of sentences from customer reviews |
US20120253792A1 (en) * | 2011-03-30 | 2012-10-04 | Nec Laboratories America, Inc. | Sentiment Classification Based on Supervised Latent N-Gram Analysis |
EP2764472A4 (en) * | 2011-10-03 | 2015-10-14 | Aol Inc | SYSTEMS AND METHOD FOR CARRYING OUT A CONTEXT CLASSIFICATION WITH MONITORED AND UNWARNED TRAINING |
US9158761B2 (en) * | 2012-03-28 | 2015-10-13 | Lockheed Martin Corporation | Identifying cultural background from text |
WO2013155619A1 (en) | 2012-04-20 | 2013-10-24 | Sam Pasupalak | Conversational agent |
US9355088B2 (en) | 2013-07-12 | 2016-05-31 | Microsoft Technology Licensing, Llc | Feature completion in computer-human interactive learning |
US9886669B2 (en) | 2014-02-26 | 2018-02-06 | Microsoft Technology Licensing, Llc | Interactive visualization of machine-learning performance |
-
2014
- 2014-07-03 US US14/323,050 patent/US9547471B2/en active Active
-
2015
- 2015-07-02 CN CN201580036274.9A patent/CN106663426A/zh active Pending
- 2015-07-02 KR KR1020177002966A patent/KR102333505B1/ko active IP Right Grant
- 2015-07-02 WO PCT/US2015/038923 patent/WO2016004266A2/en active Application Filing
- 2015-07-02 JP JP2017521040A patent/JP2017527926A/ja active Pending
- 2015-07-02 EP EP15741424.4A patent/EP3164864A2/en not_active Withdrawn
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040204940A1 (en) * | 2001-07-18 | 2004-10-14 | Hiyan Alshawi | Spoken language understanding that incorporates prior knowledge into boosting |
CN1457041A (zh) * | 2002-05-10 | 2003-11-19 | 微软公司 | 为一个自然语言理解系统用来自动注解训练数据的一个系统 |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7412383B1 (en) * | 2003-04-04 | 2008-08-12 | At&T Corp | Reducing time for annotating speech data to develop a dialog application |
US7280965B1 (en) * | 2003-04-04 | 2007-10-09 | At&T Corp. | Systems and methods for monitoring speech data labelers |
CN101010934A (zh) * | 2004-09-10 | 2007-08-01 | 微软公司 | 机器学习 |
CN101189659A (zh) * | 2004-09-27 | 2008-05-28 | 罗伯特·博世公司 | 用于认知超负荷的设备用户的交互式对话 |
CN1841380A (zh) * | 2005-03-31 | 2006-10-04 | 微软公司 | 用于改进搜索引擎相关性的数据挖掘技术 |
CN101743537A (zh) * | 2007-07-13 | 2010-06-16 | 微软公司 | 用于学习高效级联检测器的多实例修剪 |
JP2009110503A (ja) * | 2007-08-24 | 2009-05-21 | Robert Bosch Gmbh | 対話システムにおける統計的分類のための最適な選択戦略の方法及びシステム |
US20090119102A1 (en) * | 2007-11-01 | 2009-05-07 | At&T Labs | System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework |
CN101178705A (zh) * | 2007-12-13 | 2008-05-14 | 中国电信股份有限公司 | 一种自然语言理解方法和人机交互智能系统 |
CN101488342A (zh) * | 2008-12-31 | 2009-07-22 | 广东协联科贸发展有限公司 | 人机语言交互演绎系统及人机语言交互需求应答的智能化实现方法 |
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
CN102637433A (zh) * | 2011-02-09 | 2012-08-15 | 富士通株式会社 | 识别语音信号中所承载的情感状态的方法和系统 |
CN102411611A (zh) * | 2011-10-15 | 2012-04-11 | 西安交通大学 | 一种面向即时交互文本的事件识别与跟踪方法 |
CN102968409A (zh) * | 2012-11-23 | 2013-03-13 | 海信集团有限公司 | 智能人机交互语义分析方法及交互系统 |
CN103474065A (zh) * | 2013-09-24 | 2013-12-25 | 贵阳世纪恒通科技有限公司 | 基于自动分类技术的语音意图判定识别方法 |
Non-Patent Citations (2)
Title |
---|
G. TUR ET AL.: "《Active learning for spoken language understanding》", 《2003 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2003. PROCEEDINGS. (ICASSP "03)》 * |
P. HAFFNER ET AL.: "《Optimizing SVMs for complex call classification》", 《2003 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2003. PROCEEDINGS. (ICASSP "03)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111857904A (zh) * | 2019-04-24 | 2020-10-30 | Abb瑞士股份有限公司 | 用于操作者的支持系统 |
Also Published As
Publication number | Publication date |
---|---|
KR20170026593A (ko) | 2017-03-08 |
JP2017527926A (ja) | 2017-09-21 |
EP3164864A2 (en) | 2017-05-10 |
WO2016004266A2 (en) | 2016-01-07 |
WO2016004266A3 (en) | 2016-03-10 |
KR102333505B1 (ko) | 2021-12-01 |
US20160005395A1 (en) | 2016-01-07 |
US9547471B2 (en) | 2017-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106663426A (zh) | 生成对社交会话输入的计算机响应 | |
CN111897964B (zh) | 文本分类模型训练方法、装置、设备及存储介质 | |
Park et al. | A metaverse: Taxonomy, components, applications, and open challenges | |
US11158329B2 (en) | Identification of fake audio content | |
LaViola Jr | 3d gestural interaction: The state of the field | |
CN110036399A (zh) | 神经网络数据录入系统 | |
CN107251060A (zh) | 针对序列标签器的预训练和/或迁移学习 | |
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN107391760A (zh) | 用户兴趣识别方法、装置及计算机可读存储介质 | |
CN110444229A (zh) | 基于语音识别的通信服务方法、装置、计算机设备及存储介质 | |
US20210074260A1 (en) | Generation of Speech with a Prosodic Characteristic | |
CN110431553A (zh) | 多语言数据输入系统 | |
US20210049989A1 (en) | Techniques for learning effective musical features for generative and retrieval-based applications | |
CN110390034A (zh) | 电子设备和用于控制该电子设备的方法 | |
US11457033B2 (en) | Rapid model retraining for a new attack vector | |
CN109643540A (zh) | 用于人工智能语音演进的系统和方法 | |
CN108229535A (zh) | 涉黄图像审核方法、装置、计算机设备及存储介质 | |
KR20200087977A (ko) | 멀티모달 문서 요약 시스템 및 방법 | |
CN112765971B (zh) | 文本语音的转换方法、装置、电子设备及存储介质 | |
KR20190118108A (ko) | 전자 장치 및 그의 제어방법 | |
US20240070467A1 (en) | Detecting digital image manipulations | |
US20230082729A1 (en) | Document control item | |
CN108268602A (zh) | 分析文本话题点的方法、装置、设备和计算机存储介质 | |
Khan et al. | Advanced sequence learning approaches for emotion recognition using speech signals | |
Rahman et al. | Analyzing sentiments in elearning: A comparative study of bangla and romanized bangla text using transformers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170510 |