CN107423398B - 交互方法、装置、存储介质和计算机设备 - Google Patents
交互方法、装置、存储介质和计算机设备 Download PDFInfo
- Publication number
- CN107423398B CN107423398B CN201710620007.7A CN201710620007A CN107423398B CN 107423398 B CN107423398 B CN 107423398B CN 201710620007 A CN201710620007 A CN 201710620007A CN 107423398 B CN107423398 B CN 107423398B
- Authority
- CN
- China
- Prior art keywords
- visitor
- feature
- feature word
- theme
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000011218 segmentation Effects 0.000 claims abstract description 38
- 230000002452 interceptive effect Effects 0.000 claims description 173
- 238000001514 detection method Methods 0.000 claims description 38
- 230000015654 memory Effects 0.000 claims description 38
- 238000009826 distribution Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 35
- 238000003062 neural network model Methods 0.000 claims description 31
- 230000033001 locomotion Effects 0.000 claims description 30
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 24
- 230000001815 facial effect Effects 0.000 claims description 12
- 230000000875 corresponding effect Effects 0.000 description 172
- 238000012549 training Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 14
- 230000008859 change Effects 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Geometry (AREA)
- User Interface Of Digital Computer (AREA)
- Manipulator (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种交互方法、装置、存储介质和计算机设备,所述方法包括:获取访客语音数据;对识别所述访客语音数据得到的文本进行分词得到特征词集合;根据主题生成模型和所述特征词集合确定所述文本所属的主题;分别获取所述特征词集合中各特征词属于确定的主题时相应的出现概率;按照各所述特征词相应的出现概率,从所述特征词集合中挑选特征词;获取与挑选出的特征词对应的访客交互内容并输出。本申请提供的方案提高了与访客间的交互效率。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种交互方法、装置、存储介质和计算机设备。
背景技术
随着社会的进步和科技的发展,人们之间的交互越来越频繁,需要进行交互的场景也越来越多。在传统的访客来访场景中,对于来访人员,通常需要由工作人员通过人工方式获知访客来访意图,再根据访客来访意图与访客进行后续交互。
然而,传统的这种通过人工方式与访客进行交互的交互方式,在交互过程中需要消耗大量的人力物力,而且引入了大量的工作量,导致与访客交互的效率低下。
发明内容
基于此,有必要针对传统的交互方式导致的与访客交互的效率低下的问题,提供一种交互方法、装置、存储介质和计算机设备。
一种交互方法,所述方法包括:
获取访客语音数据;
对识别所述访客语音数据得到的文本进行分词得到特征词集合;
根据主题生成模型和所述特征词集合确定所述文本所属的主题;
分别获取所述特征词集合中各特征词属于确定的主题时相应的出现概率;
按照各所述特征词相应的出现概率,从所述特征词集合中挑选特征词;
获取与挑选出的特征词对应的访客交互内容并输出。
一种交互装置,所述装置包括:
语音获取模块,用于获取访客语音数据;
分词模块,用于对识别所述访客语音数据得到的文本进行分词得到特征词集合;
确定模块,用于根据主题生成模型和所述特征词集合确定所述文本所属的主题;
概率获取模块,用于分别获取所述特征词集合中各特征词属于确定的主题时相应的出现概率;
挑选模块,用于按照各所述特征词相应的出现概率,从所述特征词集合中挑选特征词;
输出模块,用于获取与挑选出的特征词对应的访客交互内容并输出。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得所述处理器执行上述交互方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述交互方法的步骤。
上述交互方法、装置、存储介质和计算机设备,在获取访客语音数据,并对识别该访客语音数据得到的文本进行分词得到特征词集合后,即可利用主题生成模型和分词得到的特征词集合,在访客语音数据稀疏度高的情况下准确地确定访客语音数据所属主题,并自动根据特征词集合中各特征词属于确定的主题时的出现概率,选取合适的特征词所对应的访客交互内容输出,避免了需要大量的人工参与而引入的工作量,提高了与访客间的交互效率及输出的访客交互内容的准确性。
附图说明
图1为一个实施例中交互方法的应用环境图;
图2为一个实施例中计算机设备的内部结构示意图;
图3为一个实施例中交互方法的流程示意图;
图4为一个实施例中根据主题生成模型和特征词集合确定文本所属的主题的步骤的流程图;
图5为一个实施例中主题生成模型中生成文本过程的图模型示意图;
图6为一个实施例中地图创建过程的流程示意图;
图7为一个实施例中在地图中选取趋向访客移动路径的示意图;
图8为一个实施例中人脸检测的步骤的流程示意图;
图9为一个实施例中对人脸图像进行人脸识别的示意图;
图10为另一个实施例中交互方法的流程示意图;
图11为一个实施例中交互机器人的架构图;
图12为一个实施例中交互装置的结构框图;
图13为另一个实施例中交互装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中交互方法的应用环境图。如图1所示,该应用环境包括交互机器人110和访客120。交互机器人110可通过执行交互方法,与访客120进行交互。本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案相关的部分场景,并不构成对本申请方案应用环境的限定,该应用环境可以应用于室内场景或者室外开阔场景中。
图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器、摄像头、声音获取装置、扬声器、显示屏、输入装置和移动装置。其中,计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器实现一种交互方法。该处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中也可储存有计算机可读指令,该计算机可读指令被所述处理器执行时,可使得所述处理器执行一种交互方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏等,输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。该计算机设备是可移动的电子设备,具体可以是如图1中所述的交互机器人110等。该计算机设备还可通过网络与服务器连接,将数据发送至服务器进行处理。比如,将获取的图像帧发送至服务器进行人脸检测等。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,在一个实施例中,提供了一种交互方法。本实施例主要以该方法应用于上述图1中的交互机器人来举例说明。参照图3,该交互方法具体包括如下步骤:
S302,获取访客语音数据。
其中,访客语音数据是反映访客访问意图的语音数据。访客语音数据可以是现场采集的语音数据,也可以是事先录制的语音数据,还可以是接收的其他计算机设备传输的语音数据。
在一个实施例中,交互机器人可以直接调用本地的声音获取装置采集环境声音,检测采集的环境声音中是否包括访客语音数据,从而在检测到环境声音中包括访客语音数据时,获取到访客语音数据。
在一个实施例中,交互机器人也可以提供用于进行语音输入的操作入口,检测访客对操作入口的触发操作,根据检测到的触发操作触发相应的语音采集指令,根据该语音采集指令调用本地的声音获取装置采集访客输入的语音数据,从而获取到访客语音数据。其中,操作入口可以是图标、文字链接或者虚拟按钮等。
在一个实施例中,交互机器人还可以与其他计算机设备建立连接,接收其他计算机设备传输的语音数据,从而获取到访客语音数据。
S304,对识别访客语音数据得到的文本进行分词得到特征词集合。
其中,分词是指将一个连续的字符序列切分成多个单独的字符或者字符序列。特征词是指具有语义表达功能的字符或者字符序列。
具体地,交互机器人可对访客语音数据进行特征提取,获得待识别的访客语音特征数据,然后基于声学模型对待识别的访客语音特征数据进行语音分帧处理得到多个音素,根据候选字库中候选字与音素的对应关系,将处理得到的多个音素转化为字符序列,再利用语言模型调整转化得到的字符序列,从而得到符合自然语言模式的文本。
其中,文本是语音数据的字符表示形式。声学模型如GMM(Gaussian MixtureModel高斯混合模型)或DNN(Deep Neural Network深度神经网络)等。候选字库包括候选字和与候选字对应的音素。语言模型用于按照自然语言模式调整声学模型所识别出的字符序列,比如N-Gram模型(CLM,Chinese Language Model汉语语言模型)等。
进一步地,交互机器人可采用预设的分词方式对识别访客语音数据得到的文本进行分词处理,得到多个字符或者字符序列,从得到的字符序列中筛选出具有实际语义的字符或者字符序列作为特征词,形成特征词集合。特征词集合可以包括一个或多个特征词。其中,预设的分词方式可以是基于字符匹配、基于语义理解或者基于统计的分词方式。
在一个实施例中,交互机器人可采用基于字符匹配的分词方式进行分词处理,将识别访客语音数据得到的文本按照从前到后或者从后到前的顺序逐一切分出单个字符,再将该单个字符与标准词库进行匹配。如果匹配成功,则获取该字符作为一个候选特征词;若匹配失败,则通过增加一个字符继续进行匹配,直至识别访客语音数据得到的文本中包括的字符全部匹配完成。
在一个实施例中,交互机器人也可同时对识别访客语音数据得到的文本进行正向匹配分词和逆向匹配分词。在两种分词方式的分词结果相同时,将分词得到的多个单独的字符或者字符序列作为候选特征词。在两种分词方式的分词结果不相同时,分别计算两种分词方式得到的单独的字符或者字符序列的数量,选取计算的数量少的分词方式得到的单独的字符或者字符序列为作为候选特征词。
进一步地,交互机器人从得到的字符或字符序列中筛选出具有实际语义的字符或者字符序列作为特征词时,具体可从得到的字符或字符序列中过滤掉停用词。其中,停用词是指自然语言中包括的一种功能字符或者字符序列,这类功能字符或者字符序列并无实际语义,包括代表语气的语气字符或字符序列和表示某种逻辑关系连接字符或字符序列等。具体地,语气字符比如“吗”或者“呢”等,连接字符比如“的”或“在”等,语气字符序列比如“而已”或者“就是了”等,连接字符序列比如“至于”或“然后”等。
S306,根据主题生成模型和特征词集合确定文本所属的主题。
在自然语言处理中,主题生成模型是指一篇文章中的每个词都是按照一定概率选择了某个主题并从选择的主题中选择了某个词这样一个过程得到的。在自然语言中主题表示的是若干词所表达的一个概念,在数学上表示为词汇表上词语的条件概率分布。
基于主题生成模型,存在以下公式:
其中,word表示特征词,doc表示分词得到特征词集合的文本,topic表示主题,p(word|doc)表示文本中每个特征词出现的概率,p(word|topic)表示各个主题中的特征词出现的概率,p(topic|doc)则表示各个文本中的主题出现的概率。
本实施例中,上述公式(1)等式左边的p(word|doc)是已知的,可直接通过统计根据文本分词得到的特征词集合中各个特征词的词频而获得,而p(word|topic)和p(topic|doc)是未知的,主题生成模型就是用大量已知的p(word|doc)经过一系列训练,推理出p(word|topic)和p(topic|doc)。获得p(topic|doc)后,便可以将使得p(topic|doc)最大的主题作为访客语音数据所属的主题。
主题生成模型可采用pLSA(Probabilistic Latent Semantic Analysis)或者LDA(Latent Dirichlet Allocation),pLSA主题生成模型训练推理主要使用的是EM(期望最大化)算法;LDA主题生成模型训练推理采用的是Gibbs sampling(吉布斯采样)方法。
S308,分别获取特征词集合中各特征词属于确定的主题时相应的出现概率。
其中,特征词属于确定的主题时相应的出现概率,也就是特征词在确定的主题的条件下的出现的频次。特征词属于确定的主题时相应的出现概率反映的是特征词与所属的主题的相关度。特征词与所属的主题的相关度与特征词属于该主题时相应的出现概率正相关,出现概率越大说明特征词与所属的主题越相关。
具体地,交互机器人在训练主题生成模型时,可事先确定预设数量的主题,再为每个主题获取大量与该主题相关的文本作为训练语料,并对训练语料进行分词处理,将所有训练语料中分词后获得的词构成词集合,以进行主题生成模型训练。其中,作为训练语料的文本可以是从互联网上爬取的文本。
进一步地,交互机器人在对识别访客语音数据得到的文本进行分词得到特征词集合,并确定文本所属的主题后,对于特征词集合中的每个特征词,统计当前特征词在确定的主题对应的训练语料中出现的次数,进而根据以下公式计算词频:
其中,TF表示词频,NT表示特征词在确定的主题对应的训练语料中出现的次数,Nsum则表示确定的主题对应的训练语料中出现的词的总数量。
S310,按照各特征词相应的出现概率,从特征词集合中挑选特征词。
具体地,对于特征词集合中包括的多个特征词,交互机器人可选取特征词集合包括的全部特征词以进行后续数据处理,也可从特征词集合选取部分特征词以进行后续数据处理。
在一个实施例中,交互机器人可选取出现概率超过预设出现概率域值的特征词。交互机器人具体可在确定各特征词相应的出现概率后,将确定的各出现概率与预设出现概率域值进行比较,挑选出相应的出现概率超过预设出现概率域值的特征词。交互机器人也可以将各特征词按照相应的出现概率降序排序,选取排在靠前的预设比例的特征词。
S312,获取与挑选出的特征词对应的访客交互内容并输出。
其中,访客交互内容是与访客进行交互的内容。访客交互内容可以包括文本、图片、音频或者视频中的至少一种。访客交互内容可以是根据特征词统一设置的内容,也可以是与访客身份相关的内容。
特征词与访客交互内容关联,用于标记访客交互内容。通过特征词可定位到相关联的访客交互内容。一个特征词可以关联一个或者多个访客交互内容。多个特征词也可以关联一个访客交互内容。
在一个实施例中,交互机器人可事先设置访客交互内容,并将访客交互内容与特征词关联,再将设置的访客交互内容存储在数据库或者文件中,在需要时从数据库或者文件中读取。交互机器人在挑选出特征词后,可拉取该特征词所关联的访客交互内容。该访客交互内容可以是直接可输出的访客交互内容,也可以是待补全的访客交互内容模板。
在一个实施例中,访客交互设备可调用显示屏输出访客交互内容。访客交互内容比如文本、图片或者视频等。访客交互设备还可以获取访客交互内容对应的样式数据,从而按照该样式数据,在显示屏中展示访客交互内容。访客交互设备也可以调用扬声器输出访客交互内容。访客交互内容比如音频等。
上述交互方法,在获取访客语音数据,并对识别该访客语音数据得到的文本进行分词得到特征词集合后,即可利用主题生成模型和分词得到的特征词集合,在访客语音数据稀疏度高的情况下准确地确定访客语音数据所属主题,并自动根据特征词集合中各特征词属于确定的主题时的出现概率,选取合适的特征词所对应的访客交互内容输出,避免了需要大量的人工参与而引入的工作量,提高了与访客间的交互效率及输出的访客交互内容的准确性。
如图4所示,在一个实施例中,步骤S306具体包括如下步骤:
S402,根据主题生成模型,对于特征词集合中的每个特征词,获得当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数。
其中,主题生成模型的主要功能是提取可以理解、相对稳定的潜在语义结构。主题模型采用了词袋模型,将每一篇文本视为一个词频向量,从而将文本信息转化为易于建模的数字信息。主题生成模型的主要前提假设是,一系列的主题链接了一系列词和文本集合,主题则可以视为字和词的一种概率分布。本实施例采用LDA主题生成模型来确定访客语音数据所属的主题。
在一个实施例中,根据主题生成模型,对于特征词集合中的每个特征词,获得当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数,包括:根据主题生成模型,对于特征词集合中的每个特征词,按照预设数量的主题与特征词的多项式分布选择当前特征词所属的主题,并按照文本与主题的多项式分布生成在选择的主题条件下的当前特征词,以构建当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数。
具体地,交互机器人可事先选取预设数量的主题,并获取与选取的主题对应的多篇文本构成训练语料库,初始化预设数量的主题与特征词的多项式分布以及预设数量的主题与文本的多项式分布,根据训练语料库中的训练语料优化这两个多项式分布。
对于训练语料库中的每篇文本,LDA主题生成模型定义了如下生成过程:给定包括M篇文本的训练语料库,训练语料库中的每一篇文本与K(K通过反复试验等方法事先给定)个主题的一个多项式分布相对应,将该多项分布记为φ。每个主题又与词汇表中的V个单词的一个多项式分布相对应,将这个多项分布记为φ和分别是带有超参数α和β的Dirichlet先验分布。对于一篇文本m中的每一个词w,从该文本m所对应的多项分布φ中抽取一个主题z,然后再从主题z所对应的多项分布中抽取一个词w,将这个过程重复Nm次,就产生了文本m,这里的Nm是文本m中的词总数。这个生成过程可以用图5所示的图模型表示。其中m∈[1,M],k∈[1,K]。
在一个实施例中,交互机器人可根据主题生成模型,对于特征词集合中的每个特征词,按照预设数量的主题与特征词的多项式分布选择当前特征词所属的主题,并且按照文本与主题的多项式分布生成在选择的主题条件下的当前特征词,以构建特征词生成概率函数。其中,预设数量的主题与特征词的多项式分布表示服从以β为超参数的Dirichlet分布。文本与主题的多项式分布φm~Dirichlet(α)。其中φm~Dirichlet(α)表示φm服从以α为超参数的Dirichlet分布。
其中,m是文本的标识,n是根据文本分词得到的特征词集合中的特征词的标识,t表示文本m中的特征词n的值,k表示主题的标识,K是主题的预设数量;wm,n表示文本m中的特征词n,zm,n表示文本m中第n个特征词的主题;表示特征词wm,n是t的概率,p(zm,n=k|φm)表示在φm的条件下当前特征词所属的主题zm,n是k的概率,表示在的条件下当前特征词wm,n是t的概率。t比如:天气、晴朗或者游戏等实际的字符或字符串。
在上述实施例中,通过处理自然语言的主题生成模型中训练得到的主题与特征词的关系,及文本与主题的关系,得到访客语音数据包括的特征词属于各主题时相应的特征词生成概率函数,从而可通过概率函数来预测访客语音数据所属的主题,进而合理地从概率学的角度上确定访客所要表达的主题。
S404,分别确定特征词集合中各特征词属于各主题时相应的出现概率。
S406,对于预设数量的主题中的每个主题,根据属于当前主题的特征词的出现概率和当前主题相应的特征词生成概率函数,获得文本属于当前主题的概率。
S408,将对应最大概率的主题确定为文本所属的主题。
具体地,交互机器人可将识别访客语音数据得到的文本属于预设数量的主题中各主题的概率按照降序排序,从而得到概率最大的概率对应的主题,将该主题确定为识别访客语音数据得到的文本所属的主题。
在其它实施例中,还可以选取概率较大的多个主题作为识别访客语音数据得到的文本所述的主题。
本实施例中,将处理自然语言的主题生成模型运用到对访客语音数据进行访客意图定位,确定访客所要表达的主题后,便可以基于访客表达的主题进行候选的精确交互,提高了与访客进行交互的准确性。
在一个实施例中,步骤S306包括:根据主题生成模型和特征词集合确定文本所属的主题,以及文本属于确定的主题的概率。步骤S310包括:对于特征词集合中的每个特征词,根据文本属于确定的主题的概率与当前特征词属于确定的主题的出现概率,得到当前特征词对应的主题影响力值;按照各特征词对应的主题影响力值,从特征词集合中挑选特征词。
其中,主题影响力值是特征词与主题间相关程度的量化数值。在某一主题条件下,特征词对应的主题影响力值越大,说明特征词与该主题的相关程度越高。特征词对应的主题影响力值与文本属于确定的主题的概率正相关,且与该特征词属于确定的主题的出现概率正相关。
具体地,交互机器人可直接将文本属于确定的主题的概率与当前特征词属于确定的主题的出现概率的乘积,作为当前特征词对应的主题影响力值;也可将文本属于确定的主题的概率与当前特征词属于确定的主题的出现概率进行运算后得到的数值,作为公众标识相对应的公众影响力值。
在一个实施例中,特征词对应的主题影响力值,具体可以由自变量为文本属于确定的主题的概率,与当前特征词属于确定的主题的出现概率的二元正相关函数计算出。正相关函数的正相关系数可以是随机设定的数值。
在一个实施例中,交互机器人可选取主题影响力值超过预设主题影响力值域值的特征词。交互机器人具体可在确定各特征词相应的主题影响力值后,将确定的各主题影响力值与预设主题影响力值域值进行比较,挑选出相应的主题影响力值超过预设主题影响力值域值的特征词。交互机器人也可以将各特征词按照相应的主题影响力值降序排序,选取排在靠前的预设比例的特征词。
上述实施例中,在进行特征词挑选时,将文本属于确定的主题的概率与当前特征词属于确定的主题的出现概率,作为特征词对应的主题影响力值的评估依据,使得对特征词对应的主题影响力值的评估更加科学,从而挑选出更能反映访客意图的特征词,从而提高与访客的交互效率与准确性。
在一个实施例中,步骤S312包括:从本地查找与挑选出的特征词对应的离线访客交互内容;将挑选出的特征词发送至服务器;接收服务器返回的根据挑选出的特征词实时生成的访客交互内容;将查找到的离线访客交互内容与接收到的访客交互内容取交集或并集后输出。
具体地,交互机器人可针对访客交互场景选取相适配的关键词,并针对这些关键词查找相应的语料,根据这些语料生成个各访客交互场景中各关键词相应的访客交互内容,构建离线访客交互内容库。交互机器人在挑选出代表访客意图的特征词后,可将该特征词与离线访客交互内容库中的各关键词比较,获取与该特征词相匹配的关键词所对应的访客交互内容。交互机器人可直接将获取的离线访客交互内容输出。
交互机器人也可在挑选出的特征词后,将挑选出的特征词发送至服务器。服务器在获取到挑选出的特征词后,在互联网上实时爬取与该特征词相关的语料,从该语料中提取目标内容生成访客交互内容,再反馈给交互机器人,交互机器人可直接将服务器返回的访客交互内容输出。
交互机器人还可在获取离线访客交互内容与接收到服务器返回的访客交互内容后,将查找到的离线访客交互内容与接收到的访客交互内容相融合,再将融合得到的访客交互内容输出。其中,将查找到的离线访客交互内容与接收到的访客交互内容相融合可以是直接将两者取交集,也可以是将两者取并集。
在本实施例中,提供了离线与在线两种方式获取访客交互内容输出。通过离线方式获取的访客交互内容可极大地提高交互机器人的响应效率,通过在线方式获取访客交互内容,使得可输出的访客交互内容灵活且多样。
在一个实施例中,该交互方法中,在获取访客语音数据之前还包括以下步骤:获取图像帧;当对图像帧进行人脸检测得到图像帧包括人脸图像时,生成趋向访客移动指令;按照趋向访客移动指令移动。
在一个实施例中,交互机器人可通过摄像头,在摄像头当前的视野下采集图像帧,获取采集得到的图像帧。其中,摄像头的视野可因交互机器人的姿态和位置的变化而变化。交互机器人具体也可按照固定或动态的帧率采集图像帧,获取采集得到的图像帧。其中,固定或动态的帧率能够使图像帧按照该固定或动态的帧率播放时形成连续的动态画面,以使交互机器人可追踪连续的动态画面中的特定目标。交互机器人还可调用摄像头开启摄像扫描模式,实时扫描当前的视野下的特定目标,并按照一定的帧率实时地生成图像帧,获取生成的图像帧。
其中,摄像头可以是交互机器人内置的摄像头,或者外置的与交互机器人关联的摄像头。摄像头可以是单目摄像头、双目摄像头或者RGB-D(Red-Green-Blue-Deep)摄像头等。
进一步地,交互机器人可在获取到图像帧后,提取该图像帧中包括的图像数据,并检测该图像数据是否包含人脸特征数据。若交互机器人检测到该图像数据中包含人脸特征数据,则判定该图像帧中包括人脸图像。交互机器人也可在获取到图像帧后,将该图像帧发送至服务器,由服务器完成对图像帧的人脸检测过程,再向交互机器人返回图像帧中是否包括人脸图像的检测结果。其中,检测结果可包括图像帧中存在人脸图像的概率和人脸图像的坐标区域。
更进一步地,交互机器人可在对图像帧进行人脸检测得到图像帧包括人脸图像时,确定人脸图像的目标位置以及交互机器人当前的起始位置,根据起始位置和目标位置生成趋向访客移动指令。趋向访客移动指令用于驱使交互机器人向访客移动。
在一个实施例中,生成趋向访客移动指令的步骤包括:确定人脸图像在地图中相应的目标节点;从地图中挑选与图像帧匹配的起始节点;其中,图像帧的特征与起始节点对应的节点图像的特征相匹配;根据起始节点和目标节点,在地图包括的路径中选取趋向访客移动路径;按照选取的趋向访客移动路径生成趋向访客移动指令。
其中,地图是交互机器人根据从自然空间中采集的图像帧构建的特征分布图。交互机器人可基于SLAM(Simultaneous Localization And Mapping定位与地图构建)对自然空间构建相应的地图。交互机器人基于SLAM构建的地图具体可以是三维点图。节点是交互机器人将从自然空间中采集图像帧的位置投影至地图空间中的位置。目标节点是目标在自然空间中的位置投影至地图的节点。比如,目标在自然空间的坐标为A(x1,y1,z1),将A投影至地图空间后坐标为B(x2,y2,z2),那么B即为目标在地图中的节点。
在一个实施例中,地图中可包括若干节点,各节点均存在一一对应的节点图像。地图还可包括从节点图像中提取出的特征点。包括特征点和节点的地图是对自然空间中场景的三维重建。具体地,自然空间中的三维场景中的三维点通过投影矩阵的投影变换,得到交互机器人摄像头摄像平面的二维图像帧中的像素点,二维图像帧中的像素点再经过投影矩阵的投影反变换,得到地图中的三维重建场景中的三维特征点。
交互机器人可在检测到该图像帧中包括人脸图像时,计算该人脸图像在地图中的位置。具体地,交互机器人可确定人脸图像在该图像帧中的坐标位置,根据与交互机器人的摄像头适配的投影矩阵,计算该人脸图像在地图中的位置,在地图中包括的节点中查找与计算得到的位置相应的节点,得到目标节点。
进一步地,节点图像是交互机器人在与地图中的节点存在投影关系的自然空间中的位置处采集的图像。图像的特征可以是颜色特征、纹理特征和形状特征中的一种或几种的组合。交互机器人可在构建地图时,对地图中节点对应的节点图像提取特征,将提取的节点图像的特征相对于相应的节点存储在数据库或者缓存中。在一个实施例中,交互机器人可遍历地图中各节点对应的节点图像的特征,判断遍历至的节点图像的特征与图像帧的特征是否匹配。交互机器人可在判定遍历至的节点图像的特征与图像帧的特征匹配时,获取遍历至的节点图像的特征所对应的节点为起始节点。
更进一步地,地图中可包括通过地图中的节点形成的路径。交互机器人可以起始节点作为起点,目标节点为终点,在地图中通过节点形成的路径中选取路径得到趋向访客移动路径,按照选取的趋向访客移动路径生成趋向访客移动指令。在一个实施例中,地图以起始节点作为起点,目标节点为终点的路径可以是一条或者多条。当以起始节点作为起点,目标节点为终点的路径唯一时,交互机器人可直接获取该路径为趋向访客移动路径。当以起始节点作为起点,目标节点为终点的路径不唯一时,交互机器人可随机选取一条路径作为趋向访客移动路径,也可获取包括的节点数最少的路径作为趋向访客移动路径。
在本实施例中,在检测到获取的图像帧包括人脸图像时,即可自动在地图中确定该人脸图像相应的目标节点,定位目标在地图中的位置,然后以该图像帧的特征与地图中各节点对应的节点图像的特征的匹配关系为依据,即可从地图中挑选与该图像帧匹配的起始节点,定位本机当前在地图中的位置,再根据当前节点和目标节点便可在地图包括的路径中选取趋向访客移动路径,并生成趋向访客移动指令。这样通过图像之间的特征匹配即可完成在地图中的定位,避免了通过传感信号定位引起的环境影响,提高了运动控制的准确性。
上述实施例中,在获取图像帧并检测到获取的图像帧包括人脸图像时,即自动生成趋向访客移动指令并向访客移动,以主动与访客进行交互,提高了与访客的交互效率。
在一个实施例中,该交互方法还包括构建地图的步骤:从按时序采集的图像帧中选取图像帧;判断选取的图像帧的特征是否符合预设的节点图像的特征;当选取的图像帧的特征符合节点图像的特征时,获取选取的图像帧为节点图像;确定获取的节点图像在地图中相应的节点;对应于确定的节点存储获取的节点图像的特征。
图6示出了一个实施例中地图创建过程的流程示意图。参考图6,该地图创建过程包括追踪、建图和闭环检测三个部分。交互机器人在获取构建地图的指令后,可按照固定或动态的帧率采集图像帧。在采集到图像帧后,提取该图像帧的特征点,将提取的特征点与地图中新增的节点对应的节点图像的特征点匹配。当提取的特征点与地图中新增的节点对应的节点图像的特征点匹配失败时,交互机器人可重新获取采集的图像帧进行重定位。
当提取的特征点与地图中新增的节点对应的节点图像的特征点匹配成功时,根据地图中新增的节点预估采集的该图像帧对应与地图中的节点。交互机器人可再追踪地图中与采集的该图像相匹配的特征点,根据相匹配的特征优化该图像帧对应与地图中的节点。在对采集的该图像优化完成后,判断该图像帧的特征点是否符合预设的节点图像的特征点,若否,交互机器人可重新获取采集的图像帧进行特征点匹配。
若该图像帧的特征点符合预设的节点图像的特征点,交互机器人可获取该图像帧为新增的节点图像。交互机器人可提取该新增的节点图像的特征点,按照预设的统一的格式表示提取的特征点,再按照三角测距算法确定新增的节点图像的特征点在地图中的位置,从而更新局部地图,再进行局部集束调整,去除相似度高于预设相似度阈值的节点图像对应的冗余的节点。
交互机器人在获取该图像帧为新增的节点图像后,可异步进行闭环检测。将新增的节点图像的特征与已有的节点对应的节点图像的特征进行对比,当新增的节点图像的特征与已有的节点对应的节点图像的特征之间的相似度高于预设相似度阈值,交互机器人可判定新增的节点图像在自然空间中的采集位置与已有的节点对应的节点图像在自然空间中的采集位置一致,即存在闭环。交互机器人可再根据新增的节点图像相应的节点,在地图中生成包括位置一致的节点的环形路径,并进行闭环优化和闭环融合。最终得到包括特征点、节点和路径的全局地图
图7示出了一个实施例中在地图中选取趋向访客移动路径的示意图。参考图7,该示意图包括目标节点701、起始节点702以及趋向访客移动路径703。交互机器人在确定目标节点701即目标所在的位置以及起始节点702即本机所在位置后,以起始节点702为起点,以目标节点701为终点,在地图中选取趋向访客移动路径703。
如图8所示,在一个实施例中,该交互方法还包括人脸检测的步骤,人脸检测的步骤具体包括:
S802,将图像帧输入卷积神经网络模型。
其中,卷积神经网络模型是由多层互相连接而形成的复杂网络模型。神经网络模型可包括多层特征转换层,每层特征转换层都有对应的非线性变化算子,每层的非线性变化算子可以是多个,每层特征转换层中一个非线性变化算子对输入的图像进行非线性变化,得到特征图(Feature Map)作为运算结果。
具体地,卷积神经网络模型是以包括人脸图像的图像作为训练数据,进行学习训练得到的用于提取人脸特征的模型。交互机器人在获取到图像帧后,将图像帧输入卷积神经网络模型,利用卷积神经网络模型对图像帧进行人脸特征提取。其中,人脸特征可以是用于反映出人的性别、人脸的轮廓、发型、眼镜、鼻子、嘴以及各个脸部器官之间的距离等其中的一种或多种特征。
在一个实施例中,卷积神经网络模型是以图像作为训练数据,进行学习训练得到的用于提取图像特征的模型。交互机器人在获取到图像帧后,将图像帧输入卷积神经网络模型,利用卷积神经网络模型对图像帧进行图像特征提取。
S804,获取卷积神经网络模型包括的多个网络层输出的特征图。
具体地,交互机器人可获取卷积神经网络模型包括的多个网络层输出的特征图。特征图是由非线性变化算子对输入的图像进行处理得到的响应值构成的。不同的网络层提取的特征不同。交互机器人可利用提取人脸特征的卷积神经网络输出的特征图确定输入的图像相应的人脸特征数据。交互机器人可利用提取图像特征的卷积神经网络输出的特征图确定输入的图像相应的图像特征数据,进而判断该图像特征数据中是否包括人脸特征数据。
举例说明,交互机器人可采用52层深度残差网络模型进行图像处理,提取该深度残差网络模型中包括的4层全连接层输出的特征图,作为后续输入。
S806,将各特征图依次输入记忆神经网络模型。
其中,记忆神经网络模型是可对序列输入进行综合处理的神经网络模型。记忆神经网络模型是递归神经网络模型。记忆神经网络模型具体可以是LSTM(Long Short-TermMemory长短时记忆神经网络)。具体地,交互机器人可将获取的各特征图依次输入记忆神经网络模型,进行人脸特征检测。
S808,获取记忆神经网络模型输出的图像帧是否包括人脸图像的结果。
具体地,交互机器人可获取记忆神经网络模型根据输入的各特征图综合处理得到的人脸检测结果。人脸检测结果包括存在人脸图像的概率和人脸图像在图像帧中的坐标区域。
在一个实施例中,交互机器人还可在提取得到人脸检测结果后,根据人脸检测结果中包括的人脸图像在图像帧中的坐标区域,过滤掉重叠区域超过预设重叠阈值的人脸检测结果,根据过滤后保留的人脸检测结果得到人脸图像在图像帧中的坐标区域。
在一个实施例中,记忆神经网络模型可使用一个矩形窗口,按照预设方向和预设步长在输入的特征图中移动,从而进行窗口扫描,在扫描时提取扫描至的窗口图像中人脸特征数据,根据提取的人脸特征图像,得到扫描至的窗口图像中存在人脸图像的概率。将计算得到的概率排序靠前的窗口图像在图像帧中的坐标区域进行存储,并继续对后续输入的特征图进行处理。
图9示出了一个实施例中对人脸图像进行人脸识别的示意图。参考图9,交互机器人采用的记忆神经网络模型对输入的特征图按照矩形窗口扫描分析,得到与矩形窗口A对应的存在人脸图像的概率PA,矩形窗口B对应的存在人脸图像的概率PB,矩形窗口C对应的存在人脸图像的概率PC。此时,PC>PA>PB,记忆神经网络模型可将PC对应的矩形窗口C进行记录,继续对后续输入的特征图按照矩形窗口扫描分析,并综合多次分析得到矩形窗口以及相应的存在人脸图像的概率,输出交互机器人获取的图像帧中存在人脸图像的概率以及该人脸图像在图像帧中的坐标区域。
在本实施例中,通过卷积神经网络模型的包括的多个网络层充分提取图像特征,再将多层网络层提取的特征输入记忆神经网络模型综合处理,使得人脸检测更准确。
在一个实施例中,该交互方法还包括人脸识别的步骤,人脸识别的步骤具体包括:提取人脸图像的人脸特征数据;根据人脸特征数据查询与人脸图像相匹配的预设人脸图像;根据预设人脸图像得到访客身份识别结果。步骤S312具体包括:获取与挑选出的特征词对应、且与所述访客身份识别结果关联的访客交互内容并输出。
其中,访客身份识别结果是用于反映访客身份的数据。访客身份可以是访客的名字、社会地位或者职位信息等。
在一个实施例中,交互机器人上设置有预设人脸图像库,预设人脸图像库中包括若干预设人脸图像。交互机器人可在检测到图像帧中包括人脸图像时,将图像帧中的人脸图像与预设人脸图像库中包括的预设人脸图像比较,检测图像帧中的人脸图像和预设人脸图像之间是否匹配。交互机器人可在图像帧中的人脸图像和预设人脸图像之间匹配时,判定该图像帧包括的人脸图像与预设人脸图像为相同的人物图像,获取该预设人脸图像对应的访客身份信息作为访客身份识别结果。
其中,预设人脸图像可以是用于反映对应目标的真实人脸图像。可从目标所上传的个人资料、历史发表的图片信息中,由对应目标自定义选取的图像,或由系统自动地分析选取的一张图片,作为相应的预设人脸图像。
在一个实施例中,交互机器人在检测图像帧中的人脸图像和预设人脸图像之间是否匹配,具体可计算图像帧中的人脸图像和预设人脸图像之间的相似度。交互机器人可先提取图像帧中的人脸图像和预设人脸图像各自的特征,从而计算两特征之间的差异,特征之间的差异越大则相似度越低,特征之间的差异越小则相似度越高。其中,交互机器人计算图像帧中的人脸图像和预设人脸图像之间的相似度时,可以采用适于图像处理器的加速算法,提高运算速率。
在一个实施例中,交互机器人可在判定该图像帧中包括人脸图像后从该图像数据中提取人脸特征数据,再将提取的人脸特征数据与预设人脸图像库中各预设人脸图像相对应的人脸特征数据比较,得到访客身份识别结果。
在一个实施例中,交互机器人对图像帧进行检测得到的该图像帧包括的人脸图像可以是一个或者多个。交互机器人可确定图像帧中包括的人脸图像占图像帧的占比,提取占比超过预设比例的人脸图像的人脸特征数据;和/或,确定图像帧中包括的人脸图像的清晰度,提取清晰度超过清晰度阈值的人脸图像的人脸特征数据。交互机器人再对提取了人脸特征数据的人脸图像进行识别。
交互机器人可再获取与挑选出的特征词对应、且与所述访客身份识别结果关联的访客交互内容并输出。
在一个实施例中,交互机器人可事先设置访客交互内容,并将访客交互内容与访客标识和特征词分别关联,再将设置的访客交互内容存储在数据库或者文件中,在需要时从数据库或者文件中读取。交互机器人在识别得到访客身份识别结果后,可拉取该访客身份识别结果对应的访客标识所关联的、且与挑选出的特征词对应的访客交互内容。该访客交互内容可以是直接可输出的访客交互内容,也可以是待补全的访客交互内容模板。
在本实施例中,根据访客身份信息设置个性化的访客交互内容,使得与访客的交互内容更丰富,交互内容呈现方式多样化。
在其他实施例中,上述人脸检测以及人脸识别过程均可在服务器上进行。通过服务器进行人脸检测和人脸识别可使得识别结果或者检测结果更准确。
在一个实施例中,交互机器人可事先按照特定的排序方式对预设人脸图像库中包括的预设人脸图像进行优先级排序。比如,按照预设人脸图像所对应的真实人物的社会地位或者职位信息等对预设人脸图像进行优先级排序。当交互机器人从获取的图像帧中识别出多个访客身份识别结果时,选取对应优先级最高的预设人脸图像的访客身份识别结果进行响应。
如图10所示,在一个具体的实施例中,该交互方法具体包括以下步骤:
S1002,获取图像帧。
S1004,将图像帧输入卷积神经网络模型;获取卷积神经网络模型包括的多个网络层输出的特征图;将各特征图依次输入记忆神经网络模型;获取记忆神经网络模型输出的人脸检测结果。
S1006,判断人脸检测结果是否表示图像帧包括人脸图像;若是,则跳转到步骤S1008;若否,则返回步骤S1002。
S1008,提取人脸图像的人脸特征数据;根据人脸特征数据查询与人脸图像相匹配的预设人脸图像;根据预设人脸图像得到目标身份识别结果。
S1010,确定人脸图像在地图中相应的目标节点;从地图中挑选与图像帧匹配的起始节点;其中,图像帧的特征与起始节点对应的节点图像的特征相匹配。
S1012,根据起始节点和目标节点,在地图包括的路径中选取趋向访客移动路径;按照选取的趋向访客移动路径生成趋向访客移动指令,按照趋向访客移动指令移动。
S1014,获取访客语音数据;对识别访客语音数据得到的文本进行分词得到特征词集合。
S1016,根据主题生成模型,对于特征词集合中的每个特征词,按照预设数量的主题与特征词的多项式分布选择当前特征词所属的主题,并按照文本与主题的多项式分布生成在选择的主题条件下的当前特征词,以构建当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数;分别确定特征词集合中各特征词属于各主题时相应的出现概率。
S1018,对于预设数量的主题中的每个主题,根据属于当前主题的特征词的出现概率和当前主题相应的特征词生成概率函数,获得文本属于当前主题的概率;将对应最大概率的主题确定为文本所属的主题。
S1020,分别获取特征词集合中各特征词属于确定的主题时相应的出现概率。
S1022,对于特征词集合中的每个特征词,根据文本属于确定的主题的概率与当前特征词属于确定的主题的出现概率,得到当前特征词对应的主题影响力值;按照各特征词对应的主题影响力值,从特征词集合中挑选特征词。
S1024,获取与挑选出的特征词对应、且与访客身份识别结果关联的访客交互内容并输出。
在本实施例中,在获取访客语音数据,并对识别该访客语音数据得到的文本进行分词得到特征词集合后,即可利用主题生成模型和分词得到的特征词集合,在访客语音数据稀疏度高的情况下准确地确定访客语音数据所属主题,并自动根据特征词集合中各特征词属于确定的主题时的出现概率,选取合适的特征词所对应的访客交互内容输出,避免了需要大量的人工参与而引入的工作量,提高了与访客间的交互效率及输出的访客交互内容的准确性。
图11示出了一个实施例中用于实现上述实施例的交互机器人的架构图。参考图11,交互机器人包括用于采集图像帧的摄像头,采集访客语音数据的声音采集装置,用于输出访客交互内容的显示屏或扬声器。交互机器人包括图像分析部分和自然语音处理部分。交互机器人在通过摄像头采集到图像帧,获取该图像帧,将该图像帧输入神经网络模型(包括卷积神经网络模型和记忆神经网络模型等)进行人脸检测,在检测得到图像帧中包括人脸图像时再进行人脸识别,得到访客身份识别结果。交互机器人可在检测得到图像帧中包括人脸图像时异步根据离线场景建模得到的地图选取向访客移动的趋向访客移动路径,生成趋向访客移动指令并移动。交互机器人再获取访客语音数据,通过自然语言处理算法(主题生成模型等)结合语料库(在线语料库和离线语料库),确定访客所要表达的意图,选取特征词以获取合适的访客交互内容。
如图12所示,在一个实施例中,提供了一种交互装置1200。参照图12,该一种交互装置1200,包括:语音获取模块1201、分词模块1202、确定模块1203、概率获取模块1204、挑选模块1205和输出模块1206。
语音获取模块1201,用于获取访客语音数据。
分词模块1202,用于对识别访客语音数据得到的文本进行分词得到特征词集合。
确定模块1203,用于根据主题生成模型和特征词集合确定文本所属的主题。
概率获取模块1204,用于分别获取特征词集合中各特征词属于确定的主题时相应的出现概率。
挑选模块1205,用于按照各特征词相应的出现概率,从特征词集合中挑选特征词。
输出模块1206,用于获取与挑选出的特征词对应的访客交互内容并输出。
上述交互装置1200,在获取访客语音数据,并对识别该访客语音数据得到的文本进行分词得到特征词集合后,即可利用主题生成模型和分词得到的特征词集合,在访客语音数据稀疏度高的情况下准确地确定访客语音数据所属主题,并自动根据特征词集合中各特征词属于确定的主题时的出现概率,选取合适的特征词所对应的访客交互内容输出,避免了需要大量的人工参与而引入的工作量,提高了与访客间的交互效率及输出的访客交互内容的准确性。
在一个实施例中,确定模块1203还用于根据主题生成模型,对于特征词集合中的每个特征词,获得当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数;分别确定特征词集合中各特征词属于各主题时相应的出现概率;对于预设数量的主题中的每个主题,根据属于当前主题的特征词的出现概率和当前主题相应的特征词生成概率函数,获得文本属于当前主题的概率;将对应最大概率的主题确定为文本所属的主题。
在本实施例中,将处理自然语言的主题生成模型运用到对访客语音数据进行访客意图定位,确定访客所要表达的主题后,便可以基于访客表达的主题进行候选的精确交互,提高了与访客进行交互的准确性。
在一个实施例中,确定模块1203还用于根据主题生成模型,对于特征词集合中的每个特征词,按照预设数量的主题与特征词的多项式分布选择当前特征词所属的主题,并按照文本与主题的多项式分布生成在选择的主题条件下的当前特征词,以构建当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数。
在本实施例中,通过处理自然语言的主题生成模型中训练得到的主题与特征词的关系,及文本与主题的关系,得到访客语音数据包括的特征词属于各主题时相应的特征词生成概率函数,从而可通过概率函数来预测访客语音数据所属的主题,进而合理地从概率学的角度上确定访客所要表达的主题。
在一个实施例中,挑选模块1205还用于对于特征词集合中的每个特征词,根据文本属于确定的主题的概率与当前特征词属于确定的主题的出现概率,得到当前特征词对应的主题影响力值;按照各特征词对应的主题影响力值,从特征词集合中挑选特征词。
在本实施例中,在进行特征词挑选时,将文本属于确定的主题的概率与当前特征词属于确定的主题的出现概率,作为特征词对应的主题影响力值的评估依据,使得对特征词对应的主题影响力值的评估更加科学,从而挑选出更能反映访客意图的特征词,从而提高与访客的交互效率与准确性。
在一个实施例中,输出模块1206还用于从本地查找与挑选出的特征词对应的离线访客交互内容;将挑选出的特征词发送至服务器;接收服务器返回的根据挑选出的特征词实时生成的访客交互内容;将查找到的离线访客交互内容与接收到的访客交互内容取交集或并集后输出。
在本实施例中,提供了离线与在线两种方式获取访客交互内容输出。通过离线方式获取的访客交互内容可极大地提高交互机器人的响应效率,通过在线方式获取访客交互内容,使得可输出的访客交互内容灵活且多样。
如图13所示,在一个实施例中,交互装置1200还包括:图像处理模块1207和运动模块1208。
图像处理模块1207,用于获取图像帧;当对图像帧进行人脸检测得到图像帧包括人脸图像时,生成趋向访客移动指令。
运动模块1208,用于按照趋向访客移动指令移动。
在本实施例中,在获取图像帧并检测到获取的图像帧包括人脸图像时,即自动生成趋向访客移动指令并向访客移动,以主动与访客进行交互,提高了与访客的交互效率。
在一个实施例中,图像处理模块1207还用于确定人脸图像在地图中相应的目标节点;从地图中挑选与图像帧匹配的起始节点;其中,图像帧的特征与起始节点对应的节点图像的特征相匹配;根据起始节点和目标节点,在地图包括的路径中选取趋向访客移动路径;按照选取的趋向访客移动路径生成趋向访客移动指令。
在本实施例中,在检测到获取的图像帧包括人脸图像时,即可自动在地图中确定该人脸图像相应的目标节点,定位目标在地图中的位置,然后以该图像帧的特征与地图中各节点对应的节点图像的特征的匹配关系为依据,即可从地图中挑选与该图像帧匹配的起始节点,定位本机当前在地图中的位置,再根据当前节点和目标节点便可在地图包括的路径中选取趋向访客移动路径,并生成趋向访客移动指令。这样通过图像之间的特征匹配即可完成在地图中的定位,避免了通过传感信号定位引起的环境影响,提高了运动控制的准确性。
在一个实施例中,图像处理模块1207还用于将图像帧输入卷积神经网络模型;获取卷积神经网络模型包括的多个网络层输出的特征图;将各特征图依次输入记忆神经网络模型;获取记忆神经网络模型输出的图像帧是否包括人脸图像的结果。
在本实施例中,通过卷积神经网络模型的包括的多个网络层充分提取图像特征,再将多层网络层提取的特征输入记忆神经网络模型综合处理,使得人脸检测更准确。
在一个实施例中,图像处理模块1207还用于提取人脸图像的人脸特征数据;根据人脸特征数据查询与人脸图像相匹配的预设人脸图像;根据预设人脸图像得到访客身份识别结果。输出模块1206还用于获取与挑选出的特征词对应、且与访客身份识别结果关联的访客交互内容并输出。
在本实施例中,根据访客身份信息设置个性化的访客交互内容,使得与访客的交互内容更丰富,交互内容呈现方式多样化。
在一个实施例中,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:获取访客语音数据;对识别访客语音数据得到的文本进行分词得到特征词集合;根据主题生成模型和特征词集合确定文本所属的主题;分别获取特征词集合中各特征词属于确定的主题时相应的出现概率;按照各特征词相应的出现概率,从特征词集合中挑选特征词;获取与挑选出的特征词对应的访客交互内容并输出。
在一个实施例中,根据主题生成模型和特征词集合确定文本所属的主题,包括:根据主题生成模型,对于特征词集合中的每个特征词,获得当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数;分别确定特征词集合中各特征词属于各主题时相应的出现概率;对于预设数量的主题中的每个主题,根据属于当前主题的特征词的出现概率和当前主题相应的特征词生成概率函数,获得文本属于当前主题的概率;将对应最大概率的主题确定为文本所属的主题。
在一个实施例中,根据主题生成模型,对于特征词集合中的每个特征词,获得当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数,包括:根据主题生成模型,对于特征词集合中的每个特征词,按照预设数量的主题与特征词的多项式分布选择当前特征词所属的主题,并按照文本与主题的多项式分布生成在选择的主题条件下的当前特征词,以构建当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数。
在一个实施例中,按照各特征词相应的出现概率,从特征词集合中挑选特征词,包括:对于特征词集合中的每个特征词,根据文本属于确定的主题的概率与当前特征词属于确定的主题的出现概率,得到当前特征词对应的主题影响力值;按照各特征词对应的主题影响力值,从特征词集合中挑选特征词。
在一个实施例中,获取与挑选出的特征词对应的访客交互内容并输出,包括:从本地查找与挑选出的特征词对应的离线访客交互内容;将挑选出的特征词发送至服务器;接收服务器返回的根据挑选出的特征词实时生成的访客交互内容;将查找到的离线访客交互内容与接收到的访客交互内容取交集或并集后输出。
在一个实施例中,计算机可读指令还使得处理器执行获取访客语音数据之前,执行以下步骤:获取图像帧;当对图像帧进行人脸检测得到图像帧包括人脸图像时,生成趋向访客移动指令;按照趋向访客移动指令移动。
在一个实施例中,生成趋向访客移动指令,包括:确定人脸图像在地图中相应的目标节点;从地图中挑选与图像帧匹配的起始节点;其中,图像帧的特征与起始节点对应的节点图像的特征相匹配;根据起始节点和目标节点,在地图包括的路径中选取趋向访客移动路径;按照选取的趋向访客移动路径生成趋向访客移动指令。
在一个实施例中,计算机可读指令还使得处理器执行获取图像帧之后,执行以下步骤:将图像帧输入卷积神经网络模型;获取卷积神经网络模型包括的多个网络层输出的特征图;将各特征图依次输入记忆神经网络模型;获取记忆神经网络模型输出的图像帧是否包括人脸图像的结果。
在一个实施例中,计算机可读指令还使得处理器执行当对图像帧进行人脸检测得到图像帧包括人脸图像时,生成趋向访客移动指令之后,执行以下步骤:提取人脸图像的人脸特征数据;根据人脸特征数据查询与人脸图像相匹配的预设人脸图像;根据预设人脸图像得到访客身份识别结果。获取与挑选出的特征词对应的访客交互内容并输出,包括:获取与挑选出的特征词对应、且与访客身份识别结果关联的访客交互内容并输出。
上述存储介质,在获取访客语音数据,并对识别该访客语音数据得到的文本进行分词得到特征词集合后,即可利用主题生成模型和分词得到的特征词集合,在访客语音数据稀疏度高的情况下准确地确定访客语音数据所属主题,并自动根据特征词集合中各特征词属于确定的主题时的出现概率,选取合适的特征词所对应的访客交互内容输出,避免了需要大量的人工参与而引入的工作量,提高了与访客间的交互效率及输出的访客交互内容的准确性。
在一个实施例中,提供了一种交互机器人,包括存储器和处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:获取访客语音数据;对识别访客语音数据得到的文本进行分词得到特征词集合;根据主题生成模型和特征词集合确定文本所属的主题;分别获取特征词集合中各特征词属于确定的主题时相应的出现概率;按照各特征词相应的出现概率,从特征词集合中挑选特征词;获取与挑选出的特征词对应的访客交互内容并输出。
在一个实施例中,根据主题生成模型和特征词集合确定文本所属的主题,包括:根据主题生成模型,对于特征词集合中的每个特征词,获得当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数;分别确定特征词集合中各特征词属于各主题时相应的出现概率;对于预设数量的主题中的每个主题,根据属于当前主题的特征词的出现概率和当前主题相应的特征词生成概率函数,获得文本属于当前主题的概率;将对应最大概率的主题确定为文本所属的主题。
在一个实施例中,根据主题生成模型,对于特征词集合中的每个特征词,获得当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数,包括:根据主题生成模型,对于特征词集合中的每个特征词,按照预设数量的主题与特征词的多项式分布选择当前特征词所属的主题,并按照文本与主题的多项式分布生成在选择的主题条件下的当前特征词,以构建当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数。
在一个实施例中,按照各特征词相应的出现概率,从特征词集合中挑选特征词,包括:对于特征词集合中的每个特征词,根据文本属于确定的主题的概率与当前特征词属于确定的主题的出现概率,得到当前特征词对应的主题影响力值;按照各特征词对应的主题影响力值,从特征词集合中挑选特征词。
在一个实施例中,获取与挑选出的特征词对应的访客交互内容并输出,包括:从本地查找与挑选出的特征词对应的离线访客交互内容;将挑选出的特征词发送至服务器;接收服务器返回的根据挑选出的特征词实时生成的访客交互内容;将查找到的离线访客交互内容与接收到的访客交互内容取交集或并集后输出。
在一个实施例中,计算机可读指令还使得处理器执行获取访客语音数据之前,执行以下步骤:获取图像帧;当对图像帧进行人脸检测得到图像帧包括人脸图像时,生成趋向访客移动指令;按照趋向访客移动指令移动。
在一个实施例中,生成趋向访客移动指令,包括:确定人脸图像在地图中相应的目标节点;从地图中挑选与图像帧匹配的起始节点;其中,图像帧的特征与起始节点对应的节点图像的特征相匹配;根据起始节点和目标节点,在地图包括的路径中选取趋向访客移动路径;按照选取的趋向访客移动路径生成趋向访客移动指令。
在一个实施例中,计算机可读指令还使得处理器执行获取图像帧之后,执行以下步骤:将图像帧输入卷积神经网络模型;获取卷积神经网络模型包括的多个网络层输出的特征图;将各特征图依次输入记忆神经网络模型;获取记忆神经网络模型输出的图像帧是否包括人脸图像的结果。
在一个实施例中,计算机可读指令还使得处理器执行当对图像帧进行人脸检测得到图像帧包括人脸图像时,生成趋向访客移动指令之后,执行以下步骤:提取人脸图像的人脸特征数据;根据人脸特征数据查询与人脸图像相匹配的预设人脸图像;根据预设人脸图像得到访客身份识别结果。获取与挑选出的特征词对应的访客交互内容并输出,包括:获取与挑选出的特征词对应、且与访客身份识别结果关联的访客交互内容并输出。
上述交互机器人,在获取访客语音数据,并对识别该访客语音数据得到的文本进行分词得到特征词集合后,即可利用主题生成模型和分词得到的特征词集合,在访客语音数据稀疏度高的情况下准确地确定访客语音数据所属主题,并自动根据特征词集合中各特征词属于确定的主题时的出现概率,选取合适的特征词所对应的访客交互内容输出,避免了需要大量的人工参与而引入的工作量,提高了与访客间的交互效率及输出的访客交互内容的准确性。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:获取访客语音数据;对识别访客语音数据得到的文本进行分词得到特征词集合;根据主题生成模型和特征词集合确定文本所属的主题;分别获取特征词集合中各特征词属于确定的主题时相应的出现概率;按照各特征词相应的出现概率,从特征词集合中挑选特征词;获取与挑选出的特征词对应的访客交互内容并输出。
在一个实施例中,根据主题生成模型和特征词集合确定文本所属的主题,包括:根据主题生成模型,对于特征词集合中的每个特征词,获得当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数;分别确定特征词集合中各特征词属于各主题时相应的出现概率;对于预设数量的主题中的每个主题,根据属于当前主题的特征词的出现概率和当前主题相应的特征词生成概率函数,获得文本属于当前主题的概率;将对应最大概率的主题确定为文本所属的主题。
在一个实施例中,根据主题生成模型,对于特征词集合中的每个特征词,获得当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数,包括:根据主题生成模型,对于特征词集合中的每个特征词,按照预设数量的主题与特征词的多项式分布选择当前特征词所属的主题,并按照文本与主题的多项式分布生成在选择的主题条件下的当前特征词,以构建当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数。
在一个实施例中,按照各特征词相应的出现概率,从特征词集合中挑选特征词,包括:对于特征词集合中的每个特征词,根据文本属于确定的主题的概率与当前特征词属于确定的主题的出现概率,得到当前特征词对应的主题影响力值;按照各特征词对应的主题影响力值,从特征词集合中挑选特征词。
在一个实施例中,获取与挑选出的特征词对应的访客交互内容并输出,包括:从本地查找与挑选出的特征词对应的离线访客交互内容;将挑选出的特征词发送至服务器;接收服务器返回的根据挑选出的特征词实时生成的访客交互内容;将查找到的离线访客交互内容与接收到的访客交互内容取交集或并集后输出。
在一个实施例中,计算机可读指令还使得处理器执行获取访客语音数据之前,执行以下步骤:获取图像帧;当对图像帧进行人脸检测得到图像帧包括人脸图像时,生成趋向访客移动指令;按照趋向访客移动指令移动。
在一个实施例中,生成趋向访客移动指令,包括:确定人脸图像在地图中相应的目标节点;从地图中挑选与图像帧匹配的起始节点;其中,图像帧的特征与起始节点对应的节点图像的特征相匹配;根据起始节点和目标节点,在地图包括的路径中选取趋向访客移动路径;按照选取的趋向访客移动路径生成趋向访客移动指令。
在一个实施例中,计算机可读指令还使得处理器执行获取图像帧之后,执行以下步骤:将图像帧输入卷积神经网络模型;获取卷积神经网络模型包括的多个网络层输出的特征图;将各特征图依次输入记忆神经网络模型;获取记忆神经网络模型输出的图像帧是否包括人脸图像的结果。
在一个实施例中,计算机可读指令还使得处理器执行当对图像帧进行人脸检测得到图像帧包括人脸图像时,生成趋向访客移动指令之后,执行以下步骤:提取人脸图像的人脸特征数据;根据人脸特征数据查询与人脸图像相匹配的预设人脸图像;根据预设人脸图像得到访客身份识别结果。获取与挑选出的特征词对应的访客交互内容并输出,包括:获取与挑选出的特征词对应、且与访客身份识别结果关联的访客交互内容并输出。
上述计算机设备,在获取访客语音数据,并对识别该访客语音数据得到的文本进行分词得到特征词集合后,即可利用主题生成模型和分词得到的特征词集合,在访客语音数据稀疏度高的情况下准确地确定访客语音数据所属主题,并自动根据特征词集合中各特征词属于确定的主题时的出现概率,选取合适的特征词所对应的访客交互内容输出,避免了需要大量的人工参与而引入的工作量,提高了与访客间的交互效率及输出的访客交互内容的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (19)
1.一种交互方法,所述方法包括:
获取访客语音数据;
对识别所述访客语音数据得到的文本进行分词得到特征词集合;
根据主题生成模型和所述特征词集合确定所述文本所属的主题;
分别获取所述特征词集合中各特征词属于确定的主题时相应的出现概率;
按照各所述特征词相应的出现概率,从所述特征词集合中挑选特征词;
获取与挑选出的特征词对应的访客交互内容并输出。
2.根据权利要求1所述的方法,其特征在于,所述根据主题生成模型和所述特征词集合确定所述文本所属的主题,包括:
根据主题生成模型,对于所述特征词集合中的每个特征词,获得当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数;
分别确定所述特征词集合中各特征词属于各主题时相应的出现概率;
对于预设数量的主题中的每个主题,根据属于当前主题的特征词的出现概率和当前主题相应的特征词生成概率函数,获得所述文本属于当前主题的概率;
将对应最大概率的主题确定为所述文本所属的主题。
3.根据权利要求2所述的方法,其特征在于,所述根据主题生成模型,对于所述特征词集合中的每个特征词,获得当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数,包括:
根据主题生成模型,对于所述特征词集合中的每个特征词,按照预设数量的主题与特征词的多项式分布选择当前特征词所属的主题,并按照文本与主题的多项式分布生成在选择的主题条件下的当前特征词,以构建当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数。
4.根据权利要求2所述的方法,其特征在于,所述按照各所述特征词相应的出现概率,从所述特征词集合中挑选特征词,包括:
对于所述特征词集合中的每个特征词,根据所述文本属于确定的所述主题的概率与当前特征词属于确定的所述主题的出现概率,得到当前特征词对应的主题影响力值;
按照各所述特征词对应的主题影响力值,从所述特征词集合中挑选特征词。
5.根据权利要求1所述的方法,其特征在于,所述获取与挑选出的特征词对应的访客交互内容并输出,包括:
从本地查找与挑选出的特征词对应的离线访客交互内容;
将挑选出的特征词发送至服务器;
接收所述服务器返回的根据挑选出的特征词实时生成的访客交互内容;
将查找到的离线访客交互内容与接收到的访客交互内容取交集或并集后输出。
6.根据权利要求1所述的方法,其特征在于,所述获取访客语音数据之前,所述方法还包括:
获取图像帧;
当对所述图像帧进行人脸检测得到所述图像帧包括人脸图像时,生成趋向访客移动指令;
按照所述趋向访客移动指令移动。
7.根据权利要求6所述的方法,其特征在于,所述生成趋向访客移动指令,包括:
确定所述人脸图像在地图中相应的目标节点;
从所述地图中挑选与所述图像帧匹配的起始节点;其中,所述图像帧的特征与所述起始节点对应的节点图像的特征相匹配;
根据所述起始节点和所述目标节点,在所述地图包括的路径中选取趋向访客移动路径;
按照选取的所述趋向访客移动路径生成趋向访客移动指令。
8.根据权利要求6所述的方法,其特征在于,所述获取图像帧之后,所述方法还包括:
将所述图像帧输入卷积神经网络模型;
获取所述卷积神经网络模型包括的多个网络层输出的特征图;
将各所述特征图依次输入记忆神经网络模型;
获取所述记忆神经网络模型输出的所述图像帧是否包括人脸图像的结果。
9.根据权利要求6所述的方法,其特征在于,所述当对所述图像帧进行人脸检测得到所述图像帧包括人脸图像时,生成趋向访客移动指令之后,所述方法还包括:
提取所述人脸图像的人脸特征数据;
根据所述人脸特征数据查询与所述人脸图像相匹配的预设人脸图像;
根据所述预设人脸图像得到访客身份识别结果;
所述获取与挑选出的特征词对应的访客交互内容并输出,包括:
获取与挑选出的特征词对应、且与所述访客身份识别结果关联的访客交互内容并输出。
10.一种交互装置,所述装置包括:
语音获取模块,用于获取访客语音数据;
分词模块,用于对识别所述访客语音数据得到的文本进行分词得到特征词集合;
确定模块,用于根据主题生成模型和所述特征词集合确定所述文本所属的主题;
概率获取模块,用于分别获取所述特征词集合中各特征词属于确定的主题时相应的出现概率;
挑选模块,用于按照各所述特征词相应的出现概率,从所述特征词集合中挑选特征词;
输出模块,用于获取与挑选出的特征词对应的访客交互内容并输出。
11.根据权利要求10所述的装置,其特征在于,所述确定模块还用于根据主题生成模型,对于所述特征词集合中的每个特征词,获得当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数;分别确定所述特征词集合中各特征词属于各主题时相应的出现概率;对于预设数量的主题中的每个主题,根据属于当前主题的特征词的出现概率和当前主题相应的特征词生成概率函数,获得所述文本属于当前主题的概率;将对应最大概率的主题确定为所述文本所属的主题。
12.根据权利要求11所述的装置,其特征在于,所述确定模块还用于根据主题生成模型,对于所述特征词集合中的每个特征词,按照预设数量的主题与特征词的多项式分布选择当前特征词所属的主题,并按照文本与主题的多项式分布生成在选择的主题条件下的当前特征词,以构建当前特征词分别属于预设数量的主题中各主题时相应的特征词生成概率函数。
13.根据权利要求11所述的装置,其特征在于,所述挑选模块还用于对于所述特征词集合中的每个特征词,根据所述文本属于确定的所述主题的概率与当前特征词属于确定的所述主题的出现概率,得到当前特征词对应的主题影响力值;按照各所述特征词对应的主题影响力值,从所述特征词集合中挑选特征词。
14.根据权利要求10所述的装置,其特征在于,所述输出模块还用于从本地查找与挑选出的特征词对应的离线访客交互内容;将挑选出的特征词发送至服务器;接收所述服务器返回的根据挑选出的特征词实时生成的访客交互内容;将查找到的离线访客交互内容与接收到的访客交互内容取交集或并集后输出。
15.根据权利要求10所述的装置,其特征在于,所述装置还包括:
图像处理模块,用于获取图像帧;当对所述图像帧进行人脸检测得到所述图像帧包括人脸图像时,生成趋向访客移动指令;
运动模块,用于按照所述趋向访客移动指令移动。
16.根据权利要求15所述的装置,其特征在于,所述图像处理模块还用于将所述图像帧输入卷积神经网络模型;获取所述卷积神经网络模型包括的多个网络层输出的特征图;将各所述特征图依次输入记忆神经网络模型;获取所述记忆神经网络模型输出的所述图像帧是否包括人脸图像的结果。
17.根据权利要求15所述的装置,其特征在于,所述图像处理模块还用于提取所述人脸图像的人脸特征数据;根据所述人脸特征数据查询与所述人脸图像相匹配的预设人脸图像;根据所述预设人脸图像得到访客身份识别结果;
所述输出模块还用于获取与挑选出的特征词对应、且与所述访客身份识别结果关联的访客交互内容并输出。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述的方法的步骤。
19.一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述的方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710620007.7A CN107423398B (zh) | 2017-07-26 | 2017-07-26 | 交互方法、装置、存储介质和计算机设备 |
PCT/CN2018/095836 WO2019019935A1 (zh) | 2017-07-26 | 2018-07-16 | 交互方法、交互终端、存储介质和计算机设备 |
US16/533,141 US11069338B2 (en) | 2017-07-26 | 2019-08-06 | Interactive method, interactive terminal, storage medium, and computer device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710620007.7A CN107423398B (zh) | 2017-07-26 | 2017-07-26 | 交互方法、装置、存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107423398A CN107423398A (zh) | 2017-12-01 |
CN107423398B true CN107423398B (zh) | 2023-04-18 |
Family
ID=60431170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710620007.7A Active CN107423398B (zh) | 2017-07-26 | 2017-07-26 | 交互方法、装置、存储介质和计算机设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11069338B2 (zh) |
CN (1) | CN107423398B (zh) |
WO (1) | WO2019019935A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423398B (zh) * | 2017-07-26 | 2023-04-18 | 腾讯科技(上海)有限公司 | 交互方法、装置、存储介质和计算机设备 |
CN108417206A (zh) * | 2018-02-27 | 2018-08-17 | 四川云淞源科技有限公司 | 基于大数据的信息高速处理方法 |
CN110175323B (zh) * | 2018-05-31 | 2022-05-13 | 腾讯科技(深圳)有限公司 | 消息摘要的生成方法和装置 |
CN110674331A (zh) * | 2018-06-15 | 2020-01-10 | 华为技术有限公司 | 信息处理方法、相关设备及计算机存储介质 |
CN109192226A (zh) * | 2018-06-26 | 2019-01-11 | 深圳大学 | 一种信号处理方法及装置 |
CN109657036B (zh) * | 2018-11-12 | 2021-02-02 | 中国科学院自动化研究所 | 基于类脑语义层次时序记忆推理模型的问答方法、系统 |
US11468995B2 (en) * | 2019-05-03 | 2022-10-11 | Destroke, Inc. | Method and apparatus for mobile stroke self-detection |
CN110490953B (zh) * | 2019-07-25 | 2023-04-07 | 维沃移动通信有限公司 | 基于文本的图像生成方法、终端设备及介质 |
CN110703614B (zh) * | 2019-09-11 | 2021-01-22 | 珠海格力电器股份有限公司 | 语音控制方法、装置、语义网络构建方法及装置 |
CN110600021A (zh) * | 2019-09-20 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 室外智能语音交互方法、装置和系统 |
US11687778B2 (en) | 2020-01-06 | 2023-06-27 | The Research Foundation For The State University Of New York | Fakecatcher: detection of synthetic portrait videos using biological signals |
CN111814474B (zh) * | 2020-09-14 | 2021-01-29 | 智者四海(北京)技术有限公司 | 领域短语挖掘方法及装置 |
JP2023544145A (ja) * | 2020-10-13 | 2023-10-20 | ヒタチ ヴァンタラ エルエルシー | アクションへの傾向についての表現特徴空間における自己適応マルチモデル方法 |
CN112863518B (zh) * | 2021-01-29 | 2024-01-09 | 深圳前海微众银行股份有限公司 | 一种语音数据主题识别的方法及装置 |
CN113220999A (zh) * | 2021-05-14 | 2021-08-06 | 北京百度网讯科技有限公司 | 用户特征的生成方法、装置、电子设备和存储介质 |
US20220274251A1 (en) * | 2021-11-12 | 2022-09-01 | Intel Corporation | Apparatus and methods for industrial robot code recommendation |
CN114154501B (zh) * | 2022-02-09 | 2022-04-26 | 南京擎天科技有限公司 | 一种基于无监督学习的中文地址分词方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092875A (zh) * | 2011-11-04 | 2013-05-08 | 中国移动通信集团贵州有限公司 | 一种基于文本的搜索方法及搜索装置 |
CN105425970A (zh) * | 2015-12-29 | 2016-03-23 | 深圳羚羊微服机器人科技有限公司 | 一种人机互动的方法、装置及机器人 |
CN106056207A (zh) * | 2016-05-09 | 2016-10-26 | 武汉科技大学 | 一种基于自然语言的机器人深度交互与推理方法与装置 |
CN106095834A (zh) * | 2016-06-01 | 2016-11-09 | 竹间智能科技(上海)有限公司 | 基于话题的智能对话方法及系统 |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3857047B2 (ja) * | 2000-12-28 | 2006-12-13 | 富士通株式会社 | 音声対話システム及び音声対話方法 |
US7349758B2 (en) * | 2003-12-18 | 2008-03-25 | Matsushita Electric Industrial Co., Ltd. | Interactive personalized robot for home use |
KR100755677B1 (ko) * | 2005-11-02 | 2007-09-05 | 삼성전자주식회사 | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 |
US8484228B2 (en) * | 2011-03-17 | 2013-07-09 | Indian Institute Of Science | Extraction and grouping of feature words |
CN105677769B (zh) * | 2015-12-29 | 2018-01-05 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
CN107423398B (zh) * | 2017-07-26 | 2023-04-18 | 腾讯科技(上海)有限公司 | 交互方法、装置、存储介质和计算机设备 |
-
2017
- 2017-07-26 CN CN201710620007.7A patent/CN107423398B/zh active Active
-
2018
- 2018-07-16 WO PCT/CN2018/095836 patent/WO2019019935A1/zh active Application Filing
-
2019
- 2019-08-06 US US16/533,141 patent/US11069338B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092875A (zh) * | 2011-11-04 | 2013-05-08 | 中国移动通信集团贵州有限公司 | 一种基于文本的搜索方法及搜索装置 |
CN105425970A (zh) * | 2015-12-29 | 2016-03-23 | 深圳羚羊微服机器人科技有限公司 | 一种人机互动的方法、装置及机器人 |
CN106056207A (zh) * | 2016-05-09 | 2016-10-26 | 武汉科技大学 | 一种基于自然语言的机器人深度交互与推理方法与装置 |
CN106095834A (zh) * | 2016-06-01 | 2016-11-09 | 竹间智能科技(上海)有限公司 | 基于话题的智能对话方法及系统 |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
Non-Patent Citations (2)
Title |
---|
马红 ; 蔡永明 ; .共词网络LDA模型的中文文本主题分析:以交通法学文献(2000-2016)为例.现代图书情报技术.2016,(12),全文. * |
黄贤英 ; 陈红阳 ; 刘英涛 ; 熊李媛 ; .一种新的微博短文本特征词选择算法.计算机工程与科学.2015,(09),全文. * |
Also Published As
Publication number | Publication date |
---|---|
US20190362707A1 (en) | 2019-11-28 |
WO2019019935A1 (zh) | 2019-01-31 |
CN107423398A (zh) | 2017-12-01 |
US11069338B2 (en) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423398B (zh) | 交互方法、装置、存储介质和计算机设备 | |
US11210836B2 (en) | Applying artificial intelligence to generate motion information | |
US20190034814A1 (en) | Deep multi-task representation learning | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
Hoque et al. | Real time bangladeshi sign language detection using faster r-cnn | |
CN105051755A (zh) | 用于姿势识别的部位和状态检测 | |
JP7290730B2 (ja) | 文生成方法と装置、電子機器及びプログラム | |
US20230068798A1 (en) | Active speaker detection using image data | |
CN113035311A (zh) | 一种基于多模态注意力机制的医学图像报告自动生成方法 | |
CN116955699B (zh) | 一种视频跨模态搜索模型训练方法、搜索方法及装置 | |
CN111434118A (zh) | 用户感兴趣信息生成的装置和方法 | |
CN116958342A (zh) | 虚拟形象的动作生成方法、动作库的构建方法及装置 | |
CN112101154B (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
Shurid et al. | Bangla sign language recognition and sentence building using deep learning | |
Mahyoub et al. | Sign Language Recognition using Deep Learning | |
CN117809679A (zh) | 一种服务器、显示设备及数字人交互方法 | |
Ismail et al. | Arabic sign language detection using deep learning based pose estimation | |
US11681364B1 (en) | Gaze prediction | |
Shane et al. | Sign Language Detection Using Faster RCNN Resnet | |
Xiong et al. | Improved information maximization based face and facial feature detection from real-time video and application in a multi-modal person identification system | |
CN117576279B (zh) | 基于多模态数据的数字人驱动方法及系统 | |
CN116051859B (zh) | 服务提供方法、设备和存储介质 | |
Ketab | Beyond Words: Understanding the Art of Lip Reading in Multimodal Communication | |
Ahmed et al. | Real Time System Based Deep Learning for Recognizing Algerian Sign Language | |
Jha et al. | Indian Sign Language recognition using LSTM and mediapipe |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |