CN108182229B - 信息交互方法及装置 - Google Patents
信息交互方法及装置 Download PDFInfo
- Publication number
- CN108182229B CN108182229B CN201711443488.5A CN201711443488A CN108182229B CN 108182229 B CN108182229 B CN 108182229B CN 201711443488 A CN201711443488 A CN 201711443488A CN 108182229 B CN108182229 B CN 108182229B
- Authority
- CN
- China
- Prior art keywords
- text
- semantic field
- information
- user
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000003993 interaction Effects 0.000 title claims abstract description 56
- 230000002452 interceptive effect Effects 0.000 claims abstract description 59
- 239000013598 vector Substances 0.000 claims description 297
- 230000015654 memory Effects 0.000 claims description 93
- 238000002372 labelling Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 8
- 230000002441 reversible effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 230000006403 short-term memory Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供的信息交互方法及装置,获取用户的语音文本信息,利用预置的语义字段预测模型,预测与所述语音文本信息相匹配的目标语义字段,并检索与所述目标语义字段匹配的结果信息,用于响应所述用户,由于语义字段预测模型是以用户的训练语音文本信息为训练样本,以与所述训练语音文本信息相匹配的用户的历史交互语音文本信息匹配的语义字段为样本标签进行训练所得的预测模型,所以能够根据用户的历史交互情况预测出与用户的语音文本信息相匹配的目标语义字段,使得预测出来的目标语义字段更能准确体现用户的真实意图,进而使得检索到的与所述目标语义字段相匹配的结果信息更能满足用户需求,从而提高了信息交互效率与准确性。
Description
技术领域
本发明涉及信息处理领域,更具体的说,涉及信息交互方法及装置。
背景技术
随着人工智能的快速发展,语音交互的应用越来越广泛,例如,在车载导航系统中,用户语音命令车辆导航到某地;在歌曲播放系统中,用户语音命令播放某首歌曲;在拨打电话时,用户语音命令打电话给某人。
目前对语音命令的解析,通常是先将语音命令转换为语音文本,然后从语音文本中提取出语义字段,来表示用户的意图。但是,仅根据语音文本包含的语义字段,并不一定能够准确表达明确用户的意图,例如,用户的语音文本为“导航到我家”,从该语音文本中仅能提取出目的地为“我家”的语义字段,但却并不能明确“我家”的具体位置信息,从而导致导航失败,影响用户出行。
所以,目前迫切需要一种更加优化的信息交互方案,以提高信息交互的准确性。
发明内容
有鉴于此,本发明提供了一种信息交互方法及装置,以解决目前信息交互方案准确性较低的技术问题。
为实现上述目的,本发明提供如下技术方案:
一种信息交互方法,包括:
获取用户的语音文本信息,所述语音文本信息为对用户语音进行文本识别所得到的结果;
利用预置的语义字段预测模型,预测与所述语音文本信息相匹配的目标语义字段,所述语义字段预测模型为,以用户的训练语音文本信息为训练样本,以与所述训练语音文本信息相匹配的用户的历史交互语音文本信息匹配的语义字段为样本标签进行训练所得;
检索与所述目标语义字段匹配的结果信息,所述结果信息用于响应所述用户。
一种信息交互装置,包括:
语音文本获取单元,用于获取用户的语音文本信息,所述语音文本信息为对用户语音进行文本识别所得到的结果;
目标语义预测单元,用于利用预置的语义字段预测模型,预测与所述语音文本信息相匹配的目标语义字段,所述语义字段预测模型为,以用户的训练语音文本信息为训练样本,以与所述训练语音文本信息相匹配的用户的历史交互语音文本信息匹配的语义字段为样本标签进行训练所得;
结果信息检索单元,用于检索与所述目标语义字段匹配的结果信息,所述结果信息用于响应所述用户。
从上述的技术方案可以看出,本发明提供的信息交互方法及装置,获取用户的语音文本信息,利用预置的语义字段预测模型,预测与所述语音文本信息相匹配的目标语义字段,并检索与所述目标语义字段匹配的结果信息,以响应所述用户,由于语义字段预测模型是以用户的训练语音文本信息为训练样本,以与所述训练语音文本信息相匹配的用户的历史交互语音文本信息匹配的语义字段为样本标签进行训练所得的预测模型,所以能够根据用户的历史交互情况预测出与用户的语音文本信息相匹配的目标语义字段,而并不是直接从用户的语音文本信息中提取出目标语义字段,从而使得预测出来的目标语义字段更能准确体现用户的真实意图,进而使得检索到的与所述目标语义字段相匹配的结果信息更能满足用户需求,提高了信息交互效率与准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的信息交互方法的一种流程图;
图2为本申请实施例提供的信息交互方法的另一种流程图;
图3为本申请实施例提供的信息交互方法的又一种流程图;
图4为本申请实施例提供的Memory Networks神经网络模型的结构示意图;
图5为本申请实施例提供的信息交互方法的又一种流程图;
图6为本申请实施例提供的BiLSTM模型的结构示意图;
图7为本申请实施例提供的信息交互方法的再一种流程图;
图8为本申请实施例提供的信息交互装置的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在对本申请实施例公开的信息交互方法进行介绍之前,首先对本申请实施例公开的信息交互方法的构思过程进行简要介绍,具体如下:
为了提高信息交互的效率,传统的技术方案会从语音文本中提取出语义字段来表示用户的意图,并基于语音文本中的语义字段来检索相应的反馈信息。但是,在实际应用中,用户的语音文本信息所包含的语义字段并不一定能够准确表明用户的意图,例如,语音文本“导航到我家”中导航目的地所对应的语义字段“我家”,并不能准确表明用户想要导航到的具体位置信息,从而导致导航失败,影响用户出行,可见传统的信息交互方案效率不高、准确性也较差。
鉴于现有信息交互方法存在的问题,本发明采用以用户的训练语音文本信息为训练样本,以与所述训练语音文本信息相匹配的用户的历史交互语音文本信息匹配的语义字段为样本标签进行训练所得的语义字段预测模型,来预测与用户的语音文本信息相匹配的目标语义字段,从而使得预测得到的目标语义字段,更能准确体现用户的真实意图,进而使得检索到的与所述目标语义字段相匹配的结果信息更能满足用户需求,提高了信息交互效率与准确性。
接下来对本申请实施例公开的信息交互方法进行介绍。
请参阅图1,图1为本申请实施例提供的信息交互方法的一种流程图。
如图1所示,所述方法包括:
S101:获取用户的语音文本信息。
所述语音文本信息为对用户语音进行文本识别所得到的结果。例如,通过麦克风或者麦克风阵列组成的语音输入装置,接收用户发出的命令、请求、提问或者与系统进行的语音交互的音频数据,利用语音识别方法,将音频数据转换成识别后的语音文本信息。
S102:利用预置的语义字段预测模型,预测与所述语音文本信息相匹配的目标语义字段。
所述语义字段预测模型为,以用户的训练语音文本信息为训练样本,以与所述训练语音文本信息相匹配的用户的历史交互语音文本信息匹配的语义字段为样本标签进行训练所得。
其中,上述的样本标签可以理解为,用户的目标历史交互语音文本信息匹配的语义字段,所述目标历史交互语音文本信息为与所述训练语音文本信息匹配的用户的历史交互语音文本信息。利用语义字段预测模型,基于用户的历史交互语音文本信息,来预测出与用户的语音文本信息相匹配的目标语义字段,而并不局限于从用户的语音文本信息中去提取语义字段,从而能够使预测出来的目标语义字段能够符合用户的信息交互习惯,更能准确地表明用户的意图。
其中,用户的历史交互语音文本信息是指在对所述语义字段预测模型进行训练之前所获取的,用户与用户之间、用户与机器之间的交互语音对应的语音文本信息。例如,用户A与用户B的一段历史交互语音对应的文本信息包括:
——“我昨天去了蜀南庭苑遇到了王老师。”
——“王老师说她家就在那里。”
再例如,用户A与导航客户端的一段历史交互语音对应的文本信息包括:
——“请导航到我家”
——“请重新输入目的地”
——“请导航到蜀南庭苑”。
S103:检索与所述目标语义字段匹配的结果信息,所述结果信息用于响应所述用户。
由于利用预置的语义字段预测模型预测出来的目标语义字段,能够准确地表明用户的意图,所以根据所述目标语义字段,检索到的与所述目标语义字段匹配的结果信息更能准确地满足用户的信息需求。
例如,用户发出语音形式的提问后,将用户的问题信息转换为语音文本信息,利用预置的语义字段预测模型,预测与所述语音文本信息相匹配的目标语义字段,再检索与所述目标语义字段匹配的结果信息,该结果信息即为针对用户的问题信息所作出的答复,用于响应该用户。
本实施例提供的信息交互方法,利用以用户的训练语音文本信息为训练样本,以与所述训练语音文本信息相匹配的用户的历史交互语音文本信息匹配的语义字段为样本标签进行训练所得的语义字段预测模型,来预测与用户的语音文本信息相匹配的目标语义字段,从而使得预测得到的目标语义字段,更能准确体现用户的真实意图,进而使得检索到的与所述目标语义字段相匹配的结果信息更能满足用户需求,提高了信息交互效率与准确性。
请参阅图2,图2为本申请实施例提供的信息交互方法的另一种流程图。
如图2所示,所述方法包括:
S201:获取用户的语音文本信息。
所述语音文本信息为对用户语音进行文本识别所得到的结果。
步骤S201与前述实施例中的步骤S101相类似,具体可参考前述实施例,在此不再赘述。
S202:将所述用户的语音文本信息转换为文本向量。
本实施例同样利用语义字段预测模型预测与所述语音文本信息相匹配的目标语义字段,其中,需要先将所述用户的语音文本信息转换为文本向量,以便于语义字段预测模型的内部识别与处理。
语义字段预测模型中包括记忆单元(Memory),记忆单元中存储有用户的历史交互语音文本信息对应的历史文本向量。用户的历史交互语音文本信息对应的历史文本向量可以选取预设的特征空间维度,也可以使用向量空间模型(VSM,Vector Space Model)以及word2vec表示。
S203:在所述记忆单元中,获取与所述文本向量的匹配度满足设定匹配度条件的历史文本向量,作为目标历史文本向量。
由于记忆单元中存储有用户的历史交互语音文本信息对应的历史文本向量,所以,用户的语音文本信息转换为的文本向量与记忆单元中的历史文本向量之间存在一定的匹配状态,根据用户的语音文本信息转换为的文本向量,在所述记忆单元中能够获取与所述文本向量的匹配度满足设定匹配度条件的历史文本向量。其中,设定匹配度条件可以根据具体需求进行设定。
S204:在用户关联的词表中,获取与所述目标历史文本向量匹配度最高的词,作为目标语义字段。
用户关联的词表是指收集到的用户信息所含的词的集合。用户关联的词表中的各词与记忆单元中的历史文本向量之间也存在一定的匹配状态,所以,在用户关联的词表中,能够获取到与所述目标历史文本向量匹配度最高的词,作为目标语义字段。
在一示例中,在用户关联的词表中,获取与所述目标历史文本向量匹配度最高的词,可以利用一预置的目标词匹配模型来实现。该示例中,步骤S204包括:
a1:利用预置的目标词匹配模型,计算用户关联的词表中各词与所述目标历史文本向量的匹配度。
所述目标词匹配模型为,以用户的训练语音文本信息对应的训练文本向量,以及所述记忆单元中与所述训练文本向量的匹配度满足设定匹配度条件的目标历史文本向量为训练数据,以用户关联的词表中各词与所述训练数据的匹配结果为标签,进行训练得到。例如,训练数据中,训练文本向量对应的文本信息为“导航到王老师家”,目标历史文本向量对应的文本信息为“王老师说她家在蜀南庭苑”,则将用户关联的词表中“蜀南庭苑”一词相对于训练数据的匹配结果标注为“最匹配”进行训练。
a2:获取所述用户关联的词表中,与所述目标历史文本向量的匹配度最高的词作为目标语义字段。
在一示例中,所述目标词匹配模型可以是长短期记忆(LSTM,Long Short-TermMemory)模型,通过输入目标历史文本向量与用户的语音文本信息转换为的文本向量,获得用户关联的词表中各词与所述目标历史文本向量的匹配度。例如,在匹配过程中利用softmax得到一个1×N维的向量,N为词表中词的个数,一个维度代表词表中一个词语与所述目标历史文本向量的匹配度。
在获得所述用户关联的词表中各词与所述目标历史文本向量的匹配度后,即可获取与所述目标历史文本向量的匹配度最高的词作为目标语义字段。
所述目标词匹配模型还可以是循环神经网络(RNN,Recurrent Neural Networks)模型,双向长短期记忆(BiLSTM,Bi Long Short-Term Memory)模型等,在此不做具体限定。
其中,步骤S202-S204可用于实现前述实施例中的步骤S102。
S205:检索与所述目标语义字段匹配的结果信息,所述结果信息用于响应所述用户。
本实施提供的信息交互方法,通过预置的语义字段预测模型中的记忆单元来存储用户的历史交互语音文本信息对应的历史文本向量,为用户的语音文本信息与目标语义字段之间的匹配过程提供充分的历史数据的支持,从而能够准确预测出与用户的语音文本信息匹配的目标语义字段,准确体现用户的真实意图,使得检索到的与所述目标语义字段相匹配的结果信息更能满足用户需求,提高信息交互效率与准确性。
请参阅图3,图3为本申请实施例提供的信息交互方法的又一种流程图。
如图3所示,所述方法包括:
S301:获取用户的语音文本信息。
所述语音文本信息为对用户语音进行文本识别所得到的结果。
S302:将所述用户的语音文本信息转换为文本向量。
步骤S301-S302与前述实施例中的步骤S201-S202相类似,具体可参见前述实施例,在此不再赘述。
S303:利用预置的文本向量预测模型,计算所述文本向量与记忆单元中历史文本向量之间的匹配度。
所述文本向量预测模型为,以标注有与所述记忆单元中各历史文本向量的匹配结果的训练文本向量为训练数据进行训练得到。例如,所述文本向量预测模型可采用卷积神经网络(CNN,Convolutional Neural Network)模型,在训练过程中,增大相互不匹配的训练文本向量与历史文本向量之间的夹角以减小所述夹角的余弦值,缩小相互匹配的训练文本向量与历史文本向量之间的夹角以增大所述夹角的余弦值,其中,训练文本向量与历史文本向量之间的夹角的余弦值用于表征所述训练文本向量与所述历史文本向量之间的匹配度,从而最终CNN模型学习到什么样的历史文本向量与训练文本向量最匹配。
在一示例中,所述记忆单元的个数为多个,每一记忆单元中存储有用户的历史交互语音文本信息对应的至少一条历史文本向量。在该示例中,利用预置的文本向量预测模型,计算所述文本向量与记忆单元中历史文本向量之间的匹配度的步骤S303具体为:利用预置的文本向量预测模型,计算所述文本向量与每一记忆单元中历史文本向量之间的匹配度。
优选的,利用预置的文本向量预测模型,计算所述文本向量与每一记忆单元中历史文本向量之间的匹配度包括:利用预置的文本向量预测模型,按照各记忆单元的逆序顺序,依次计算所述文本向量与每一记忆单元中历史文本向量之间的匹配度,当确定计算得到设定数目的匹配度满足所述设定匹配度条件的历史文本向量时,停止计算。
多个记忆单元按照所存储的历史文本向量对应的历史交互语音文本信息的生成时间先后进行排序。排序靠后的记忆单元中的历史文本向量可能是对排序靠前的记忆单元中历史文本向量的更正,所以,排序越靠后的记忆单元中历史文本向量的准确性越高,越能符合用户近期交互习惯的意图表达,因此,按照各记忆单元的逆序顺序,来匹配目标历史文本向量,能够有效提高匹配效率。
在该示例中,利用预置的文本向量预测模型,计算所述文本向量与记忆单元中历史文本向量之间的匹配度可包括:
b1:采用多个卷积核分别对所述文本向量执行卷积与最大池化处理,得到文本特征向量。
计算方式可采用:
I(y)'=[argmaxj=0,...,L(conv2(w1,I(y))),...,argmaxj=0,...,L(conv2(wp,I(y)))]。其中,I(y)'为文本特征向量,L为卷积过程中卷积核移动的次数,p为卷积核个数,I(y)为用户的语音文本信息对应的文本向量,w1~wp为多个卷积核,(conv2(w1,I(y))为卷积核w1对用户的语音文本信息对应的文本向量I(y)进行卷积处理的过程,argmaxj=0,...,L(conv2(w1,I(y))为最大池化处理过程。
b2:采用所述多个卷积核分别对所述历史文本向量执行卷积与最大池化处理,得到历史文本特征向量。
计算方式可采用:Mi'=[argmaxj=0,...,L(conv2(w1,Mi)),...,argmaxj=0,...,L(conv2(wp,Mi))]。其中,Mi'为历史文本特征向量,L为卷积过程中卷积核移动的次数,p为卷积核个数,Mi为历史文本向量,w1~wp为多个卷积核,(conv2(w1,Mi))为卷积核w1对历史文本向量Mi进行卷积处理的过程,argmaxj=0,...,L(conv2(w1,Mi))为最大池化处理过程。
b3:计算所述文本特征向量与所述历史文本特征向量之间的夹角余弦值,所述夹角余弦值用于表征所述文本向量与所述历史文本向量之间的匹配度。
S304:获取匹配度满足设定匹配度条件的历史文本向量,作为目标历史文本向量。
在一示例中,目标历史文本向量的数量是可配置的。
当目标历史文本向量的数量配置为1时,所述步骤S304包括:
c1:获取与所述文本向量的匹配度最高的一个历史文本向量,作为目标历史文本向量。
计算方式可采用:其中,为与所述文本向量的匹配度最高的一个历史文本向量(即,目标历史文本向量),Q为历史文本向量总个数,M为历史文本向量的集合,Mi为为M中任一历史文本向量,I(y)为文本向量,So为表示Mi与I(y)的匹配度得分的函数。
当目标历史文本向量的数量配置为n个时,所述步骤S304包括:
c2:获取与所述文本向量的匹配度最高的一个历史文本向量,作为目标历史文本向量加入目标历史文本向量集合。
c3:以目标历史文本向量集合中的目标历史文本向量为基础,迭代获取与所述文本向量及目标历史文本向量集合中的各目标历史文本向量的匹配度之和最大的新的目标历史文本向量,并加入目标历史文本向量集合,直至目标历史文本向量集合中目标历史文本向量的个数达到设定数目。
计算方式可采用:
…
其中,表示与I(y)最匹配的第1、2…n个历史文本向量。1<n<Q,Q为历史文本向量总个数,M为历史文本向量的集合,Mi为M中任一历史文本向量,I(y)为文本向量,So为表示Mi与I(y)的匹配度得分的函数。
其中,步骤S303-S304可用于实现前述实施例中的步骤S203。
S305:在用户关联的词表中,获取与所述目标历史文本向量匹配度最高的词,作为目标语义字段。
S306:检索与所述目标语义字段匹配的结果信息,所述结果信息用于响应所述用户。
其中,步骤S305-S306与前述实施例中的步骤S204-S205相类似,具体可参见前述实施例,在此不再赘述。本实施例提供的信息交互方法,将用户的语音文本信息转换为文本向量,利用以标注有与所述记忆单元中各历史文本向量的匹配结果的训练文本向量为训练数据进行训练得到的文本向量预测模型,计算所述文本向量与记忆单元中历史文本向量之间的匹配度,获取匹配度满足设定匹配度条件的历史文本向量,作为目标历史文本向量,提高了目标历史文本向量获取过程的准确性。
在一示例中,为了保证记忆单元中历史文本向量的时效性与准确性,本申请方案还可以增加对记忆单元的更新过程。该记忆单元的更新过程具体可以包括:
d1、获取最新生成的用户的历史交互语音文本信息。
d2、将所述最新生成的用户的历史交互语音文本信息转换成与其相对应的历史文本向量。
d3、将所述历史文本向量存储至顺序排序的记忆单元序列中首个未存储信息的记忆单元中。
在该示例中,最新生成的用户的历史交互语音文本信息,记载了用户最新的语音交互信息,由于旧的信息随着时间的推移可能会发生改变,所以越新的语音交互信息,其准确性越高,进而将与最新生成的用户的历史交互语音文本信息对应的历史文本向量存储到记忆单元中,能够充分保证记忆单元中历史文本向量的时效性与准确性,从而使得从记忆单元中获得的目标历史文本向量具有较高的准确性。
请参阅图4,图4为本申请实施例提供的Memory Networks神经网络模型的结构示意图。
在本实施例中,语义字段预测模型可采用Memory Networks神经网络模型,MemoryNetworks神经网络模型具有长时记忆更加稳定的特性,使得基于用户的历史交互语音文本信息来进行预测的过程更加稳定有效。
如图4所示,Memory Networks神经网络模型包括记忆单元、历史文本输入模块、记忆单元更新模块、语音文本匹配模块与语义字段匹配模块。
Memory Networks神经网络模型利用历史文本输入模块输入用户的历史交互语音文本信息,并将用户的历史交互语音文本信息转换为对应的历史文本向量,再利用记忆单元更新模块将所述历史文本向量更新到记忆单元中。具体地,可以是按照各记忆单元的排序顺序,将最新获取的历史文本向量存储至最近一个还未存储信息的记忆单元中。利用语音文本匹配模块输入用户的语音文本信息,并将用户的语音文本信息转换为对应的文本向量,再从记忆单元中匹配出与所述文本向量相匹配的目标历史文本向量,最后利用语义字段匹配模块从用户关联的词表中匹配出与所述目标历史文本向量匹配的目标语义字段。
请参阅图5,图5为本申请实施例提供的信息交互方法的又一种流程图。
如图5所示,所述方法包括:
S401:获取用户的语音文本信息。
所述语音文本信息为对用户语音进行文本识别所得到的结果。
S402:利用预置的语义字段预测模型,预测与所述语音文本信息相匹配的目标语义字段。
所述语义字段预测模型为,以用户的训练语音文本信息为训练样本,以与所述训练语音文本信息相匹配的用户的历史交互语音文本信息匹配的语义字段为样本标签进行训练所得。
S403:检索与所述目标语义字段匹配的结果信息,所述结果信息用于响应所述用户。
所述步骤S401-S403与前述实施例中的步骤S101-S103相类似,具体可参见前述实施例,在此不再赘述。
S404:确定所述目标语义字段与其匹配的结果信息的匹配度。
在检索到与所述目标语义字段匹配的结果信息时,还可以确定出所述目标语义字段与其匹配的结果信息的匹配度。具体地,在数据库中检索所述目标语义字段时,按照预置的匹配度计算规则,能够计算出数据库中各信息与所述目标语义字段的匹配度,进而将与所述目标语义字段匹配度最高的信息作为结果信息,而该结果信息与所述目标语义字段的匹配度即为所要确定的与所述目标语义字段匹配的结果信息的匹配度。
S405:利用预置的语义字段标注模型,从所述用户的语音文本信息中获取标注语义字段。
标注语义字段是指利用语义字段标注模型从用户的语音文本信息中获取的语义字段。所述语义字段标注模型为,以用户的训练语音文本信息为训练样本,以所述训练语音文本信息中采用预设语义标签标注的语义字段为样本标签进行训练所得。
以车辆导航为例,预设语义标签可以是出发地(startloc)、目的地(endloc)、规避地(avoidloc)、途径地(vialoc)、周边搜索(landmark)等,用户的训练语音文本信息“从科大讯飞到王老师家”中采用预设语义标签“出发地(startloc)”标注的语义字段为“科大讯飞”,采用预设语义标签“目的地(endloc)”标注的语义字段为“王老师家”。
以音乐点播为例,预设语义标签可以是歌手名(singname)、歌曲名(singname)等,用户的训练语音文本信息“播放林俊杰的歌曲A”中采用预设语义标签“歌手名(singname)”标注的语义字段为“林俊杰”,采用预设语义标签“歌曲名(singname)”标注的语义字段为“歌曲A”。
所述语义字段标注模型可以采用长短期记忆(LSTM,Long Short-Term Memory)模型,也可以采用循环神经网络(RNN,Recurrent Neural Networks)模型、双向LSTM(BiLSTM)模型、条件随机场(CRF,conditional random field)模型等。
以BiLSTM模型为例,如图6所示,在输入层输入的“请导航到王老师家”为训练语音文本信息,“王老师家”为采用预设语义标签“目的地(endloc)”标注的语义字段,BiLSTM预测是具有时序性的,B代表预设语义标签标注的语义字段的开始部分,I代表预设语义标签标注的语义字段的中间部分,E代表预设语义标签标注的语义字段的结束部分,即,B_endloc表示“目的地(endloc)”标注的语义字段的开始部分(“王”),I_endloc表示“目的地(endloc)”标注的语义字段的中间部分(“老师”),E_endloc表示“目的地(endloc)”标注的语义字段的结束部分(“家”),则,预设语义标签目的地(endloc)在“请导航到王老师家”中标注的语义字段为“王老师家”。
S406:检索与所述标注语义字段匹配的结果信息,并确定所述标注语义字段与其匹配的结果信息的匹配度。
本实施例至此获得了与用户的语音文本信息相对应的两种结果信息,一种是与所述目标语义字段匹配的结果信息,另一种是与所述标注语义字段匹配的结果信息。其中,与所述标注语义字段匹配的结果信息可以有多个,并分别对应不同的检索数据库,例如,分别在系统默认数据库与用户关联的个性化数据库中检索所述标注语义字段,分别得到两个与所述标注语义字段匹配的结果信息及其匹配度。
其中,步骤S405-S406可以与步骤S402-S404并行执行,也可以在步骤S402-S404之前或之后执行。
S407:根据所述目标语义字段匹配的结果信息及其匹配度,以及所述标注语义字段匹配的结果信息及其匹配度,确定最终结果信息。
所述最终结果信息用于响应所述用户。
本实施例提供的信息交互方法,在获得与所述目标语义字段匹配的结果信息后,还获取所述目标语义字段与其匹配的结果信息的匹配度,并增加利用预置的语义字段标注模型,从所述用户的语音文本信息中获取标注语义字段,检索与所述标注语义字段匹配的结果信息,并确定所述标注语义字段与其匹配的结果信息的匹配度的过程,从而通过多种途径获取结果信息,并根据所述目标语义字段匹配的结果信息及其匹配度,以及所述标注语义字段匹配的结果信息及其匹配度,确定最终结果信息,使得响应于用户的最终结果信息能够更加准确地满足用户需求。
请参阅图7,图7为本申请实施例提供的信息交互方法的再一种流程图。
如图7所示,所述方法包括:
S501:获取用户的语音文本信息。
所述语音文本信息为对用户语音进行文本识别所得到的结果。
S502:利用预置的语义字段预测模型,预测与所述语音文本信息相匹配的目标语义字段。
所述语义字段预测模型为,以用户的训练语音文本信息为训练样本,以与所述训练语音文本信息相匹配的用户的历史交互语音文本信息匹配的语义字段为样本标签进行训练所得。
S503:检索与所述目标语义字段匹配的结果信息,所述结果信息用于响应所述用户。
S504:确定所述目标语义字段与其匹配的结果信息的匹配度。
S505:利用预置的语义字段标注模型,从所述用户的语音文本信息中获取标注语义字段。
所述语义字段标注模型为,以用户的训练语音文本信息为训练样本,以所述训练语音文本信息中采用预设语义标签标注的语义字段为样本标签进行训练所得。
S506:检索与所述标注语义字段匹配的结果信息,并确定所述标注语义字段与其匹配的结果信息的匹配度。
所述步骤S501-S506与前述实施例中的步骤S401-S406相类似,具体可参见前述实施例,在此不再赘述。
S507:利用预置的结果判断模型,参考所述目标语义字段及其与所述第一结果信息的匹配度,以及,所述标注语义字段及其与所述第二结果信息的匹配度,选取所述第一结果信息和所述第二结果信息中可信的一个作为最终结果信息。
其中,定义所述目标语义字段匹配的结果信息为第一结果信息,所述标注语义字段匹配的结果信息为第二结果信息。所述最终结果信息用于响应所述用户。
所述结果判断模型为,以所述语义字段预测模型对训练文本所预测的第一训练语义字段、所述第一训练语义字段匹配的结果信息及其匹配度、所述语义字段标注模型对所述训练文本所预测的第二训练语义字段、所述第二训练语义字段匹配的结果信息及其匹配度作为训练样本,人工标注的所述第一训练语义字段匹配的结果信息的置信状态和人工标注的所述第二训练语义字段匹配的结果信息的置信状态为样本标签,进行训练得到。
本实施例提供的信息交互方法,在获取到所述目标语义字段及其与所述第一结果信息的匹配度,以及,所述标注语义字段及其与所述第二结果信息的匹配度之后,利用预置的结果判断模型,选取所述第一结果信息和所述第二结果信息中可信的一个作为最终结果信息,提高了最终结果信息的选取过程的准确性。
在一示例中,若所述第一结果信息和所述第二结果信息均不可信,所述方法还包括:
e1、向所述用户发送与所述标注语义字段相对应的提示信息。
e2、接收用户响应于所述提示信息反馈的反馈信息。
e3、建立所述反馈信息与所述标注语义字段的对应关系,并将所述对应关系存储到预置的与所述用户关联的个性化数据库中。
例如,标注语义字段为“王老师家”,与其相对应的提示信息为“请问王老师家在哪里?”,用户在接收到“请问王老师家在哪里?”的提示信息后,可以反馈“蜀南庭苑”,则建立“蜀南庭苑”与“王老师家”之间的对应关系,并将“王老师家—>蜀南庭苑”存储到阈值的与所述用户关联的个性化数据库中。
在另一示例中,若所述目标语义字段与所述标注语义字段不一致,则说明标注语义字段为用户的个性化称呼,其对应的实际字段应是目标语义字段。如标注语义字段为“王老师家”,而目标语义字段为“蜀南庭苑”,则“王老师家”是用户的个性化称呼,而“蜀南庭苑”才是一个具有实际位置意义的字段名称。在此基础上,本申请还可以建立所述目标语义字段与所述标注语义字段的对应关系,并将所述对应关系存储到预置的与所述用户关联的个性化数据库中。
更进一步地,当所述目标语义字段与所述标注语义字段不一致时,还可以判断所述第一结果信息是否可信。若所述第一结果信息为可信,则建立所述第一结果信息与所述标注语义字段的对应关系,并将所述对应关系存储到预置的与所述用户关联的个性化数据库中。通过这种处理方式,后续当用户再次输入个性化的标注语义字段时,可以直接通过个性化数据库查询对应的目标语义字段以及目标语义字段的数据库搜索结果,即第一结果信息,加快了搜索速度。
本申请一个实施例中,对上述步骤S507的过程进一步介绍。其中,结果判断模型可以有两种,一种是回归结果判断模型,另一种是分类结果判断模型。
其中一个示例中,结果判断模型为回归结果判断模型,相应地,步骤S507包括:
f1:利用预置的回归结果判断模型,参考所述目标语义字段及其与所述第一结果信息的匹配度,确定所述第一结果信息的置信度。
f2:利用预置的回归结果判断模型,参考所述标注语义字段及其与所述第二结果信息的匹配度,确定所述第二结果信息的置信度。
其中,定义所述目标语义字段匹配的结果信息为第一结果信息,所述标注语义字段匹配的结果信息为第二结果信息。
本示例中,选取回归类型的结果判断模型,即结果判断模型为回归结果判断模型,该回归结果判断模型能够给出第一结果信息的置信度大小和第二结果信息的置信度大小,即定量分析第一结果信息和第二结果信息的置信状态。所述回归结果判断模型为,以所述语义字段预测模型对训练文本所预测的第一训练语义字段、所述第一训练语义字段匹配的结果信息及其匹配度、所述语义字段标注模型对所述训练文本所预测的第二训练语义字段、所述第二训练语义字段匹配的结果信息及其匹配度作为训练样本,人工标注的所述第一训练语义字段匹配的结果信息的置信度和人工标注的所述第二训练语义字段匹配的结果信息的置信度为样本标签,进行训练得到。
f3:在所述第一结果信息和所述第二结果信息中选取置信度最高的一个作为最终结果信息。
可选的,为了提高最终结果信息的确定效率,还可以设定一置信度阈值,按照结果信息的获取先后顺序,将置信度大于置信度阈值的最先得到的结果信息直接作为最终结果信息。
可选的,若所述第一结果信息与所述第二结果信息的置信度均不大于所述置信度阈值,表明所述第一结果信息与所述第二结果信息均不可信,并均不可作为最终结果信息。
所述最终结果信息用于响应所述用户。
本示例利用预置的回归结果判定模型,在所述第一结果信息和所述第二结果信息中选取置信度最高的一个作为最终结果信息,提高了最终结果信息的选取过程的准确性。
另一个示例中,结果判断模型为分类结果判断模型,相应地,步骤S507包括:
利用预置的分类结果判断模型,参考所述目标语义字段及其与所述第一结果信息的匹配度,以及,所述标注语义字段及其与所述第二结果信息的匹配度,在所述第一结果信息和所述第二结果信息中选取分类标签为可信的一个作为最终结果信息。
其中,同样定义所述目标语义字段匹配的结果信息为第一结果信息,所述标注语义字段匹配的结果信息为第二结果信息。所述最终结果信息用于响应所述用户。
本示例中,选取分类类型的结果判断模型,即结果判断模型为分类结果判断模型,该分类结果判断模型能够给出所述第一结果信息和所述第二结果信息的分类标签是否为可信,即定性分析第一结果信息和第二结果信息的置信状态。所述分类结果判断模型为,以所述语义字段预测模型对训练文本所预测的第一训练语义字段、所述第一训练语义字段匹配的结果信息及其匹配度、所述语义字段标注模型对所述训练文本所预测的第二训练语义字段、所述第二训练语义字段匹配的结果信息及其匹配度作为训练样本,所述第一训练语义字段匹配的结果信息,及所述第二训练语义字段匹配的结果信息各自的可信与否标注结果为样本标签,进行训练得到。
本示例利用预置的分类结果判定模型,参考所述目标语义字段及其与所述第一结果信息的匹配度,以及,所述标注语义字段及其与所述第二结果信息的匹配度,在所述第一结果信息和所述第二结果信息中选取分类标签为可信的一个作为最终结果信息,提高了最终结果信息的选取过程的准确性。
本发明实施例还提供了信息交互装置,所述信息交互装置用于实现本发明实施例提供的信息交互方法,下文描述的信息交互装置内容,可与上文描述的信息交互方法内容相互对应参照。
请参阅图8,图8为本申请实施例提供的信息交互装置的一种结构示意图。
本实施例的信息交互装置,用于实施前述实施例的信息交互方法,如图8所示,所述装置包括:
语音文本获取单元100,用于获取用户的语音文本信息,所述语音文本信息为对用户语音进行文本识别所得到的结果。
目标语义预测单元200,用于利用预置的语义字段预测模型,预测与所述语音文本信息相匹配的目标语义字段。
所述语义字段预测模型为,以用户的训练语音文本信息为训练样本,以与所述训练语音文本信息相匹配的用户的历史交互语音文本信息匹配的语义字段为样本标签进行训练所得。
结果信息检索单元300,用于检索与所述目标语义字段匹配的结果信息,所述结果信息用于响应所述用户。
本实施例提供的信息交互装置,利用以用户的训练语音文本信息为训练样本,以与所述训练语音文本信息相匹配的用户的历史交互语音文本信息匹配的语义字段为样本标签进行训练所得的语义字段预测模型,来预测与用户的语音文本信息相匹配的目标语义字段,从而使得预测得到的目标语义字段,更能准确体现用户的真实意图,进而使得检索到的与所述目标语义字段相匹配的结果信息更能满足用户需求,提高了信息交互效率与准确性。
在另一实施例中,所述目标语义预测单元所利用的语义字段预测模型中包括记忆单元,记忆单元中存储有用户的历史交互语音文本信息对应的历史文本向量。所述目标语义预测单元包括:
语音文本转换单元,用于将所述用户的语音文本信息转换为文本向量。
目标文本获取单元,用于在所述记忆单元中,获取与所述文本向量的匹配度满足设定匹配度条件的历史文本向量,作为目标历史文本向量。
目标语义获取单元,用于在用户关联的词表中,获取与所述目标历史文本向量匹配度最高的词,作为目标语义字段。
在一示例中,所述目标文本获取单元可以包括:
文本向量匹配计算单元,用于利用预置的文本向量预测模型,计算所述文本向量与记忆单元中历史文本向量之间的匹配度。所述文本向量预测模型为,以标注有与所述记忆单元中各历史文本向量的匹配结果的训练文本向量为训练数据进行训练得到。
目标文本向量获取单元,用于获取匹配度满足设定匹配度条件的历史文本向量,作为目标历史文本向量。
在一示例中,所述记忆单元的个数为多个,每一记忆单元中存储有用户的历史交互语音文本信息对应的至少一条历史文本向量。所述文本向量匹配计算单元利用预置的文本向量预测模型,计算所述文本向量与记忆单元中历史文本向量之间的匹配度可包括:
利用预置的文本向量预测模型,计算所述文本向量与每一记忆单元中历史文本向量之间的匹配度。
在另一示例中,多个记忆单元按照所存储的历史文本向量对应的历史交互语音文本信息的生成时间先后进行排序。所述文本向量匹配计算单元利用预置的文本向量预测模型,计算所述文本向量与每一记忆单元中历史文本向量之间的匹配度可包括:
利用预置的文本向量预测模型,按照各记忆单元的逆序顺序,依次计算所述文本向量与每一记忆单元中历史文本向量之间的匹配度,当确定计算得到设定数目的匹配度满足所述设定匹配度条件的历史文本向量时,停止计算。
在又一示例中,所述文本向量匹配计算单元计算所述文本向量与任一记忆单元中历史文本向量之间的匹配度可包括:
采用多个卷积核分别对所述文本向量执行卷积与最大池化处理,得到文本特征向量。
采用所述多个卷积核分别对所述历史文本向量执行卷积与最大池化处理,得到历史文本特征向量。
计算所述文本特征向量与所述历史文本特征向量之间的夹角余弦值,所述夹角余弦值用于表征所述文本向量与所述历史文本向量之间的匹配度。
在一示例中,所述目标文本向量获取单元获取匹配度满足设定匹配度条件的历史文本向量,作为目标历史文本向量,可具体包括:
获取与所述文本向量的匹配度最高的一个历史文本向量,作为目标历史文本向量。
或,获取与所述文本向量的匹配度最高的一个历史文本向量,作为目标历史文本向量加入目标历史文本向量集合。
以目标历史文本向量集合中的目标历史文本向量为基础,迭代获取与所述文本向量及目标历史文本向量集合中的各目标历史文本向量的匹配度之和最大的新的目标历史文本向量,并加入目标历史文本向量集合,直至目标历史文本向量集合中目标历史文本向量的个数达到设定数目。
在一示例中,所述目标语义获取单元可包括:
目标词匹配计算单元,用于利用预置的目标词匹配模型,计算用户关联的词表中各词与所述目标历史文本向量的匹配度。所述目标词匹配模型为,以用户的训练语音文本信息对应的训练文本向量,以及所述记忆单元中与所述训练文本向量的匹配度满足设定匹配度条件的目标历史文本向量为训练数据,以所述用户关联的词表中各词与所述训练数据的匹配结果为标签,进行训练得到。
目标语义字段获取单元,用于获取用户关联的词表中,与所述目标历史文本向量的匹配度最高的词作为目标语义字段。
在一示例中,所述装置还可包括:
最新历史文本获取单元,用于获取最新生成的用户的历史交互语音文本信息。
最新历史文本转换单元,用于将所述最新生成的用户的历史交互语音文本信息转换成与其相对应的历史文本向量。
历史文本向量存储单元,用于将所述历史文本向量存储至顺序排序的记忆单元序列中首个未存储信息的记忆单元中。
本实施提供的信息交互装置,通过预置的语义字段预测模型中的记忆单元来存储用户的历史交互语音文本信息对应的历史文本向量,为用户的语音文本信息与目标语义字段之间的匹配过程提供充分的历史数据的支持,从而能够准确预测出与用户的语音文本信息匹配的目标语义字段,准确体现用户的真实意图,使得检索到的与所述目标语义字段相匹配的结果信息更能满足用户需求,提高信息交互效率与准确性。
在又一实施例中,所述信息交互装置还包括:
结果匹配度确定单元,用于确定所述目标语义字段与其匹配的结果信息的匹配度。
标注语义获取单元,用于利用预置的语义字段标注模型,从所述用户的语音文本信息中获取标注语义字段。所述语义字段标注模型为,以用户的训练语音文本信息为训练样本,以所述训练语音文本信息中采用预设语义标签标注的语义字段为样本标签进行训练所得。
所述结果信息检索单元,还用于检索与所述标注语义字段匹配的结果信息。
所述结果匹配度确定单元,还用于确定所述标注语义字段与其匹配的结果信息的匹配度。
最终结果确定单元,用于根据所述目标语义字段匹配的结果信息及其匹配度,以及所述标注语义字段匹配的结果信息及其匹配度,确定最终结果信息,所述最终结果信息用于响应所述用户。
在一示例中,定义所述目标语义字段匹配的结果信息为第一结果信息,所述标注语义字段匹配的结果信息为第二结果信息。所述最终结果确定单元可包括:
最终结果选取单元,用于利用预置的结果判断模型,参考所述目标语义字段及其与所述第一结果信息的匹配度,以及,所述标注语义字段及其与所述第二结果信息的匹配度,选取所述第一结果信息和所述第二结果信息中可信的一个作为最终结果信息。
所述结果判断模型为,以所述语义字段预测模型对训练文本所预测的第一训练语义字段、所述第一训练语义字段匹配的结果信息及其匹配度、所述语义字段标注模型对所述训练文本所预测的第二训练语义字段、所述第二训练语义字段匹配的结果信息及其匹配度作为训练样本,人工标注的所述第一训练语义字段匹配的结果信息的置信状态和人工标注的所述第二训练语义字段匹配的结果信息的置信状态为样本标签,进行训练得到。
在一示例中,所述结果判定模型为回归结果判定模型,所述最终结果选取单元利用预置的结果判断模型,参考所述目标语义字段及其与所述第一结果信息的匹配度,以及,所述标注语义字段及其与所述第二结果信息的匹配度,选取所述第一结果信息和所述第二结果信息中可信的一个作为最终结果信息,可具体包括:
利用预置的回归结果判断模型,参考所述目标语义字段及其与所述第一结果信息的匹配度,确定所述第一结果信息的置信度。
利用预置的回归结果判断模型,参考所述标注语义字段及其与所述第二结果信息的匹配度,确定所述第二结果信息的置信度。
所述回归结果判断模型为,以所述语义字段预测模型对训练文本所预测的第一训练语义字段、所述第一训练语义字段匹配的结果信息及其匹配度、所述语义字段标注模型对所述训练文本所预测的第二训练语义字段、所述第二训练语义字段匹配的结果信息及其匹配度作为训练样本,人工标注的所述第一训练语义字段匹配的结果信息的置信度和人工标注的所述第二训练语义字段匹配的结果信息的置信度为样本标签,进行训练得到。
在所述第一结果信息和所述第二结果信息中选取置信度最高的一个作为最终结果信息。
在另一示例中,所述结果判定模型为分类结果判定模型,所述最终结果选取单元利用预置的结果判断模型,参考所述目标语义字段及其与所述第一结果信息的匹配度,以及,所述标注语义字段及其与所述第二结果信息的匹配度,选取所述第一结果信息和所述第二结果信息中可信的一个作为最终结果信息,可具体包括:
利用预置的分类结果判断模型,参考所述目标语义字段及其与所述第一结果信息的匹配度,以及,所述标注语义字段及其与所述第二结果信息的匹配度,在所述第一结果信息和所述第二结果信息中选取分类标签为可信的一个作为最终结果信息。
所述分类结果判断模型为,以所述语义字段预测模型对训练文本所预测的第一训练语义字段、所述第一训练语义字段匹配的结果信息及其匹配度、所述语义字段标注模型对所述训练文本所预测的第二训练语义字段、所述第二训练语义字段匹配的结果信息及其匹配度作为训练样本,所述第一训练语义字段匹配的结果信息,及所述第二训练语义字段匹配的结果信息各自的可信与否标注结果为样本标签,进行训练得到。
若所述第一结果信息和所述第二结果信息均不可信,该装置还可包括:
提示信息发送单元,用于向所述用户发送与所述标注语义字段相对应的提示信息。
反馈信息接收单元,用于接收用户响应于所述提示信息反馈的反馈信息。
个性化库更新单元,用于建立所述反馈信息与所述标注语义字段的对应关系,并将所述对应关系存储到预置的与所述用户关联的个性化数据库中。
最后,还需要说明的是,在本文中,诸如第一和第一等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种信息交互方法,其特征在于,包括:
获取用户的语音文本信息,所述语音文本信息为对用户语音进行文本识别所得到的结果;
利用预置的语义字段预测模型,预测与所述语音文本信息相匹配的目标语义字段,所述语义字段预测模型为,以用户的训练语音文本信息为训练样本,以与所述训练语音文本信息相匹配的用户的历史交互语音文本信息匹配的语义字段为样本标签进行训练所得;
检索与所述目标语义字段匹配的结果信息,所述结果信息用于响应所述用户;
其中,所述语义字段预测模型中包括记忆单元,记忆单元中存储有所述用户的历史交互语音文本信息对应的历史文本向量,用户的历史交互语音文本信息是指在对所述语义字段预测模型进行训练之前所获取的,用户与用户之间的交互语音对应的语音文本信息;所述利用预置的语义字段预测模型,预测与所述语音文本信息相匹配的目标语义字段包括:
将所述用户的语音文本信息转换为文本向量;
在所述记忆单元中,获取与所述文本向量的匹配度满足设定匹配度条件的历史文本向量,作为目标历史文本向量;
在用户关联的词表中,获取与所述目标历史文本向量匹配度最高的词,作为目标语义字段,用户关联的词表是指收预先集到的用户信息所含的词的集合;
其中,为了保证记忆单元中历史文本向量的时效性与准确性,对记忆单元更新,记忆单元的更新过程包括:
获取最新生成的用户的历史交互语音文本信息;
将所述最新生成的用户的历史交互语音文本信息转换成与其相对应的历史文本向量;
将所述历史文本向量存储至顺序排序的记忆单元序列中首个未存储信息的记忆单元中。
2.如权利要求1所述的方法,其特征在于,所述在所述记忆单元中,获取与所述文本向量的匹配度满足设定匹配度条件的历史文本向量,作为目标历史文本向量,包括:
利用预置的文本向量预测模型,计算所述文本向量与记忆单元中历史文本向量之间的匹配度;所述文本向量预测模型为,以标注有与所述记忆单元中各历史文本向量的匹配结果的训练文本向量为训练数据进行训练得到;
获取匹配度满足设定匹配度条件的历史文本向量,作为目标历史文本向量。
3.如权利要求2所述的方法,其特征在于,所述记忆单元的个数为多个,每一记忆单元中存储有所述用户的历史交互语音文本信息对应的至少一条历史文本向量;
所述利用预置的文本向量预测模型,计算所述文本向量与记忆单元中历史文本向量之间的匹配度,包括:
利用预置的文本向量预测模型,计算所述文本向量与每一记忆单元中历史文本向量之间的匹配度。
4.如权利要求3所述的方法,其特征在于,多个记忆单元按照所存储的历史文本向量对应的历史交互语音文本信息的生成时间先后进行排序;
所述利用预置的文本向量预测模型,计算所述文本向量与每一记忆单元中历史文本向量之间的匹配度,包括:
利用预置的文本向量预测模型,按照各记忆单元的逆序顺序,依次计算所述文本向量与每一记忆单元中历史文本向量之间的匹配度,当确定计算得到设定数目的匹配度满足所述设定匹配度条件的历史文本向量时,停止计算。
5.如权利要求2所述的方法,其特征在于,所述利用预置的文本向量预测模型,计算所述文本向量与记忆单元中历史文本向量之间的匹配度包括:
采用多个卷积核分别对所述文本向量执行卷积与最大池化处理,得到文本特征向量;
采用所述多个卷积核分别对所述历史文本向量执行卷积与最大池化处理,得到历史文本特征向量;
计算所述文本特征向量与所述历史文本特征向量之间的夹角余弦值,所述夹角余弦值用于表征所述文本向量与所述历史文本向量之间的匹配度。
6.如权利要求2所述的方法,其特征在于,所述获取匹配度满足设定匹配度条件的历史文本向量,作为目标历史文本向量包括:
获取与所述文本向量的匹配度最高的一个历史文本向量,作为目标历史文本向量;
或,获取与所述文本向量的匹配度最高的一个历史文本向量,作为目标历史文本向量加入目标历史文本向量集合;
以目标历史文本向量集合中的目标历史文本向量为基础,迭代获取与所述文本向量及目标历史文本向量集合中的各目标历史文本向量的匹配度之和最大的新的目标历史文本向量,并加入目标历史文本向量集合,直至目标历史文本向量集合中目标历史文本向量的个数达到设定数目。
7.如权利要求1所述的方法,其特征在于,所述在用户关联的词表中,获取与所述目标历史文本向量匹配度最高的词,作为目标语义字段包括:
利用预置的目标词匹配模型,计算用户关联的词表中各词与所述目标历史文本向量的匹配度;所述目标词匹配模型为,以用户的训练语音文本信息对应的训练文本向量,以及所述记忆单元中与所述训练文本向量的匹配度满足设定匹配度条件的目标历史文本向量为训练数据,以所述用户关联的词表中各词与所述训练数据的匹配结果为标签,进行训练得到;
获取所述用户关联的词表中,与所述目标历史文本向量的匹配度最高的词作为目标语义字段。
8.如权利要求1-7任一项所述的方法,其特征在于,该方法还包括:
确定所述目标语义字段与其匹配的结果信息的匹配度;
利用预置的语义字段标注模型,从所述用户的语音文本信息中获取标注语义字段;所述语义字段标注模型为,以用户的训练语音文本信息为训练样本,以所述训练语音文本信息中采用预设语义标签标注的语义字段为样本标签进行训练所得;
检索与所述标注语义字段匹配的结果信息,并确定所述标注语义字段与其匹配的结果信息的匹配度;
根据所述目标语义字段匹配的结果信息及其匹配度,以及所述标注语义字段匹配的结果信息及其匹配度,确定最终结果信息,所述最终结果信息用于响应所述用户。
9.如权利要求8所述的方法,其特征在于,定义所述目标语义字段匹配的结果信息为第一结果信息,所述标注语义字段匹配的结果信息为第二结果信息;
所述根据所述目标语义字段匹配的结果信息及其匹配度,以及所述标注语义字段匹配的结果信息及其匹配度,确定最终结果信息,包括:
利用预置的结果判断模型,参考所述目标语义字段及其与所述第一结果信息的匹配度,以及,所述标注语义字段及其与所述第二结果信息的匹配度,选取所述第一结果信息和所述第二结果信息中可信的一个作为最终结果信息;
所述结果判断模型为,以所述语义字段预测模型对训练文本所预测的第一训练语义字段、所述第一训练语义字段匹配的结果信息及其匹配度、所述语义字段标注模型对所述训练文本所预测的第二训练语义字段、所述第二训练语义字段匹配的结果信息及其匹配度作为训练样本,人工标注的所述第一训练语义字段匹配的结果信息的置信状态和人工标注的所述第二训练语义字段匹配的结果信息的置信状态为样本标签,进行训练得到。
10.一种信息交互装置,其特征在于,包括:
语音文本获取单元,用于获取用户的语音文本信息,所述语音文本信息为对用户语音进行文本识别所得到的结果;
目标语义预测单元,用于利用预置的语义字段预测模型,预测与所述语音文本信息相匹配的目标语义字段,所述语义字段预测模型为,以用户的训练语音文本信息为训练样本,以与所述训练语音文本信息相匹配的用户的历史交互语音文本信息匹配的语义字段为样本标签进行训练所得;
结果信息检索单元,用于检索与所述目标语义字段匹配的结果信息,所述结果信息用于响应所述用户;
其中,所述语义字段预测模型中包括记忆单元,记忆单元中存储有所述用户的历史交互语音文本信息对应的历史文本向量,用户的历史交互语音文本信息是指在对所述语义字段预测模型进行训练之前所获取的,用户与用户之间的交互语音对应的语音文本信息;所述目标语义预测单元包括:
语音文本转换单元,用于将所述用户的语音文本信息转换为文本向量;
目标文本获取单元,用于在所述记忆单元中,获取与所述文本向量的匹配度满足设定匹配度条件的历史文本向量,作为目标历史文本向量;
目标语义获取单元,用于在用户关联的词表中,获取与所述目标历史文本向量匹配度最高的词,作为目标语义字段,用户关联的词表是指收预先集到的用户信息所含的词的集合;
其中,为了保证记忆单元中历史文本向量的时效性与准确性,对记忆单元更新,记忆单元的更新过程包括:获取最新生成的用户的历史交互语音文本信息;将所述最新生成的用户的历史交互语音文本信息转换成与其相对应的历史文本向量;将所述历史文本向量存储至顺序排序的记忆单元序列中首个未存储信息的记忆单元中。
11.如权利要求10所述的装置,其特征在于,该装置还包括:
结果匹配度确定单元,用于确定所述目标语义字段与其匹配的结果信息的匹配度;
标注语义获取单元,用于利用预置的语义字段标注模型,从所述用户的语音文本信息中获取标注语义字段;所述语义字段标注模型为,以用户的历史交互语音文本信息为训练样本,以所述历史交互语音文本信息中采用预设语义标签标注的语义字段为样本标签进行训练所得;
所述结果信息检索单元,还用于检索与所述标注语义字段匹配的结果信息;
所述结果匹配度确定单元,还用于确定所述标注语义字段与其匹配的结果信息的匹配度;
最终结果确定单元,用于根据所述目标语义字段匹配的结果信息及其匹配度,以及所述标注语义字段匹配的结果信息及其匹配度,确定最终结果信息,所述最终结果信息用于响应所述用户。
12.如权利要求11所述的装置,其特征在于,定义所述目标语义字段匹配的结果信息为第一结果信息,所述标注语义字段匹配的结果信息为第二结果信息;所述最终结果确定单元包括:
最终结果选取单元,用于利用预置的结果判断模型,参考所述目标语义字段及其与所述第一结果信息的匹配度,以及,所述标注语义字段及其与所述第二结果信息的匹配度,选取所述第一结果信息和所述第二结果信息中可信的一个作为最终结果信息;
所述结果判断模型为,以所述语义字段预测模型对训练文本所预测的第一训练语义字段、所述第一训练语义字段匹配的结果信息及其匹配度、所述语义字段标注模型对所述训练文本所预测的第二训练语义字段、所述第二训练语义字段匹配的结果信息及其匹配度作为训练样本,人工标注的所述第一训练语义字段匹配的结果信息的置信状态和人工标注的所述第二训练语义字段匹配的结果信息的置信状态为样本标签,进行训练得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711443488.5A CN108182229B (zh) | 2017-12-27 | 2017-12-27 | 信息交互方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711443488.5A CN108182229B (zh) | 2017-12-27 | 2017-12-27 | 信息交互方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108182229A CN108182229A (zh) | 2018-06-19 |
CN108182229B true CN108182229B (zh) | 2022-10-28 |
Family
ID=62547670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711443488.5A Active CN108182229B (zh) | 2017-12-27 | 2017-12-27 | 信息交互方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108182229B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689033A (zh) * | 2018-07-05 | 2020-01-14 | 第四范式(北京)技术有限公司 | 用于模型训练的数据获取方法、装置、设备及存储介质 |
CN111210824B (zh) * | 2018-11-21 | 2023-04-07 | 深圳绿米联创科技有限公司 | 语音信息处理方法、装置、电子设备及存储介质 |
CN111291168A (zh) * | 2018-12-07 | 2020-06-16 | 北大方正集团有限公司 | 图书检索方法、装置及可读存储介质 |
CN109783821B (zh) * | 2019-01-18 | 2023-06-27 | 广东小天才科技有限公司 | 一种特定内容的视频的搜索方法及系统 |
CN111611358A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 信息交互方法、装置、电子设备及存储介质 |
CN110136713A (zh) * | 2019-05-14 | 2019-08-16 | 苏州思必驰信息科技有限公司 | 用户在多模态交互中的对话方法及系统 |
CN110502610A (zh) * | 2019-07-24 | 2019-11-26 | 深圳壹账通智能科技有限公司 | 基于文本语义相似度的智能语音签名方法、装置及介质 |
CN110941717B (zh) * | 2019-11-22 | 2023-08-11 | 深圳马可孛罗科技有限公司 | 客票规则解析方法、装置、电子设备及计算机可读介质 |
CN111341309A (zh) | 2020-02-18 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备和计算机存储介质 |
CN112700768B (zh) * | 2020-12-16 | 2024-04-26 | 科大讯飞股份有限公司 | 语音识别方法以及电子设备、存储装置 |
CN112908328B (zh) * | 2021-02-02 | 2023-07-07 | 安通恩创信息技术(北京)有限公司 | 设备操控方法、系统、计算机设备及存储介质 |
CN114118582A (zh) * | 2021-11-29 | 2022-03-01 | 中国第一汽车股份有限公司 | 目的地预测方法、装置、电子终端及存储介质 |
CN113918802B (zh) * | 2021-12-14 | 2022-03-08 | 腾讯科技(深圳)有限公司 | 导航方法、装置、设备、介质及产品 |
CN116402478B (zh) * | 2023-06-07 | 2023-09-19 | 成都普朗克科技有限公司 | 基于语音交互的生成清单的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0333972A (ja) * | 1989-06-29 | 1991-02-14 | Oki Techno Syst Lab:Kk | 自然言語インタフェース装置における意味表現選択方式 |
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
CN103473291A (zh) * | 2013-09-02 | 2013-12-25 | 中国科学院软件研究所 | 一种基于隐语义概率模型的个性化服务推荐系统及方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543071B (zh) * | 2011-12-16 | 2013-12-11 | 安徽科大讯飞信息科技股份有限公司 | 用于移动设备的语音识别系统和方法 |
US10169356B2 (en) * | 2013-02-26 | 2019-01-01 | Facebook, Inc. | Intelligent data caching for typeahead search |
CN105679310A (zh) * | 2015-11-17 | 2016-06-15 | 乐视致新电子科技(天津)有限公司 | 一种用于语音识别方法及系统 |
CN105389400B (zh) * | 2015-12-24 | 2020-02-14 | Tcl集团股份有限公司 | 语音交互方法及装置 |
CN107316643B (zh) * | 2017-07-04 | 2021-08-17 | 科大讯飞股份有限公司 | 语音交互方法及装置 |
-
2017
- 2017-12-27 CN CN201711443488.5A patent/CN108182229B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0333972A (ja) * | 1989-06-29 | 1991-02-14 | Oki Techno Syst Lab:Kk | 自然言語インタフェース装置における意味表現選択方式 |
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
CN103473291A (zh) * | 2013-09-02 | 2013-12-25 | 中国科学院软件研究所 | 一种基于隐语义概率模型的个性化服务推荐系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108182229A (zh) | 2018-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108182229B (zh) | 信息交互方法及装置 | |
CN108509619B (zh) | 一种语音交互方法及设备 | |
US10431204B2 (en) | Method and apparatus for discovering trending terms in speech requests | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
US11113479B2 (en) | Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
US20220027398A1 (en) | Cluster based search and recommendation method to rapidly on-board commands in personal assistants | |
CN112189229B (zh) | 针对计算机化个人助手的技能发现 | |
CN111737411A (zh) | 人机对话中的响应方法、对话系统及存储介质 | |
CN110415679B (zh) | 语音纠错方法、装置、设备和存储介质 | |
US20180190272A1 (en) | Method and apparatus for processing user input | |
CN111353021B (zh) | 意图识别方法和设备、电子设备和介质 | |
US8122002B2 (en) | Information processing device, information processing method, and program | |
JP7204801B2 (ja) | ニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体 | |
KR102387767B1 (ko) | 사용자 관심 정보 생성 장치 및 그 방법 | |
US11257482B2 (en) | Electronic device and control method | |
US10621137B2 (en) | Architecture for predicting network access probability of data files accessible over a computer network | |
CN112434142B (zh) | 一种标记训练样本的方法、服务器、计算设备及存储介质 | |
CN112434183B (zh) | 一种搜索结果的排序方法、装置、设备和存储介质 | |
CN110164416B (zh) | 一种语音识别方法及其装置、设备和存储介质 | |
CN112528010A (zh) | 知识推荐方法、装置、计算机设备及可读存储介质 | |
CN113284499A (zh) | 一种语音指令识别方法及电子设备 | |
CN116150306A (zh) | 问答机器人的训练方法、问答方法及装置 | |
CN108153875B (zh) | 语料处理方法、装置、智能音箱和存储介质 | |
US20230096070A1 (en) | Natural-language processing across multiple languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |