CN106649404A - 一种会话场景数据库的创建方法及装置 - Google Patents

一种会话场景数据库的创建方法及装置 Download PDF

Info

Publication number
CN106649404A
CN106649404A CN201510741076.4A CN201510741076A CN106649404A CN 106649404 A CN106649404 A CN 106649404A CN 201510741076 A CN201510741076 A CN 201510741076A CN 106649404 A CN106649404 A CN 106649404A
Authority
CN
China
Prior art keywords
session
initial
scene information
information item
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510741076.4A
Other languages
English (en)
Other versions
CN106649404B (zh
Inventor
陈包容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510741076.4A priority Critical patent/CN106649404B/zh
Publication of CN106649404A publication Critical patent/CN106649404A/zh
Application granted granted Critical
Publication of CN106649404B publication Critical patent/CN106649404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems

Abstract

本发明公开了一种会话场景数据库的创建方法及装置,该方法通过预先设定至少一个场景信息项;建立与场景信息项对应的初始数据库;获取与初始会话对语义关联的初始数据库作为初始会话对的关联数据库;在关联数据库中创建以关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,并将会话发起句以及关联答复句作为初始会话对的关联会话对;将场景信息项对应的初始数据库中的初始会话对,以及以初始数据库作为关联数据库时在其中创建的关联会话对,作为场景信息项的场景数据库;将场景信息项对应的场景数据库的集合作为会话场景数据库,解决了匹配精度和匹配效率不高的技术问题,增加了匹配多样性,提升了用户体验。

Description

一种会话场景数据库的创建方法及装置
技术领域
本发明涉及通讯技术领域,具体涉及一种会话场景数据库的创建方法及装置。
背景技术
目前,不管是智能聊天机器人系统提供的智能聊天回复内容、还是移动通讯终端提供给通讯双方用于选择或智能回复的聊天回复内容,大多是通过数据库匹配的方式获取,例如针对会话发起句“一起去旅游吗?”,其回答可通过匹配与“旅游”话题对应的数据库获得与之对应的回复结果(例如“好呀,我喜欢旅游。”),然而,针对同一个会话发起句(例如“一起去旅游吗?”)在现实生活中往往需要有不同的回复结果(例如“天气不好,下次再去,怎么样?”、“我比较喜欢宅在家,不喜欢旅游。”、“最近工作太忙了,抽不出时间去旅游。”等等)。
针对该问题,尽管可以通过在不同的数据库中针对该会话发起句均设置会话答复句,例如针对上述会话发起句,便可以分别在关于天气、兴趣爱好、时间等数据库中设置会话答复句,或者在同一个数据库中针对该会话发起句设置多个会话答复句来解决。但是依然存在以下问题:1、通过在不同的数据库中针对同一个会话发起句均设置会话答复句,势必会增大数据库创建的复杂度和工作量,从而影响数据匹配的效率;2、匹配没有针对性,从而导致匹配精度低;3、通过在同一个数据库中针对同一个会话发起句设置多个会话答复句容易导致设置的会话答复句不完备,从而影响匹配的精度。
发明内容
本发明提供了一种会话场景数据库的创建方法及装置,以解决采用现有的会话场景数据库匹配与会话发起句对应的回复结果出现的匹配效率和匹配精度不高的技术问题。
根据本发明的一方面,提供了一种会话场景数据库的创建方法,包括:
预先设定至少一个场景信息项;
建立与场景信息项对应的初始数据库,初始数据库包括至少一个以场景信息项为会话主题的初始会话对,初始会话对以二元句对的形式进行保存;
获取与初始会话对语义关联的初始数据库作为初始会话对的关联数据库;
在关联数据库中创建以关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,并将会话发起句以及关联答复句作为初始会话对的关联会话对;
将场景信息项对应的初始数据库中的初始会话对,以及以初始数据库作为关联数据库时在其中创建的关联会话对,作为场景信息项的场景数据库;
将场景信息项对应的场景数据库的集合作为会话场景数据库。
进一步地,获取与初始会话对语义关联的初始数据库,作为初始会话对的关联数据库包括:
选取预先设定的与初始会话对语义关联度大于预设关联阈值的场景信息项对应的初始数据库作为初始会话对的关联数据库。
进一步地,获取与初始会话对语义关联的初始数据库,作为初始会话对的关联数据库包括:
采集初始会话对所属的初始数据库中的所有初始会话对作为样本会话对;
计算样本会话对中的样本会话发起句或样本会话答复句与除初始会话对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始会话对对应的场景信息项的关联场景信息项;
将与初始会话对对应的场景信息项的关联场景信息项对应的初始数据库作为初始会话对的关联数据库。
进一步地,计算样本会话对中的样本会话发起句或样本会话答复句与除初始会话对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始会话对对应的场景信息项的关联场景信息项包括:
对样本会话对中的样本会话发起句或样本会话答复句进行预处理,获得分词文本,预处理包括分词、语义消歧、词性标注;
计算分词文本对应的词向量与除初始会话对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度;
选取相似度大于预设相似度阈值的场景信息项作为与初始会话对对应的场景信息项的关联场景信息项。
进一步地,选取相似度大于预设相似度阈值的场景信息项作为与初始会话对对应的场景信息项的关联场景信息项之后还包括:
根据分词文本对应的词向量与除初始会话对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度,创建分词文本与场景信息项之间的关联映射关系表,并保存关联映射关系表。
进一步地,场景信息项包括:
姓名、性别、年龄、即时通讯账号、电子邮箱地址、家庭地址、职业类别、职务、工作单位、单位地址、银行账号、好友印象、兴趣爱好、朋友圈状态、心情、最近关注话题、当前通讯状态、时间、节日、季节、地理位置信息、距离、标记添加的备注信息、通讯频率、通讯次数、通讯时长、发起历史通讯的选择方式,其中,选择方式包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式以及从拨号盘发起通讯方式。
根据本发明的另一方面,提供了一种会话场景数据库的创建装置,包括:
预设装置,用于预先设定至少一个场景信息项;
初始数据库创建装置,用于建立与场景信息项对应的初始数据库,初始数据库包括至少一个以场景信息项为会话主题的初始会话对,初始会话对以二元句对的形式进行保存;
关联数据库获取装置,用于获取与初始会话对语义关联的初始数据库作为初始会话对的关联数据库;
关联答复句创建装置,用于在关联数据库中创建以关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,并将会话发起句以及关联答复句作为初始会话对的关联会话对;
场景数据库获取装置,用于将场景信息项对应的初始数据库中的初始会话对,以及以初始数据库作为关联数据库时在其中创建的关联会话对作为场景信息项的场景数据库;
会话场景数据库获取装置,用于将场景信息项对应的场景数据库的集合作为会话场景数据库。
进一步地,关联数据库获取装置包括:
关联数据库选取装置,用于选取预先设定的与初始会话对语义关联度大于预设关联阈值的场景信息项对应的初始数据库作为初始会话对的关联数据库。
进一步地,关联数据库获取装置包括:
样本会话对采集装置,用于采集初始会话对所属的初始数据库中的所有初始会话对作为样本会话对;
关联场景信息项获取装置,用于计算样本会话对中的样本会话发起句或样本会话答复句与除初始会话对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始会话对对应的场景信息项的关联场景信息项;
对应装置,用于将与初始会话对对应的场景信息项的关联场景信息项对应的初始数据库作为初始会话对的关联数据库。
进一步地,关联场景信息项获取装置包括:
预处理装置,用于对样本会话对中的样本会话发起句或样本会话答复句进行预处理,获得分词文本,预处理包括分词、语义消歧、词性标注;
相似度计算装置,用于计算分词文本对应的词向量与除初始会话对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度;
相似度选取装置,用于选取相似度大于预设相似度阈值的场景信息项作为与初始会话对对应的场景信息项的关联场景信息项。
本发明具有以下有益效果:
本发明提供了一种会话场景数据库的创建方法及装置,该方法通过获取与初始数据库中的初始会话对语义关联的关联数据库,并在获得的关联数据库中均建立与关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,解决了采用现有的会话场景数据库匹配与会话发起句对应的回复结果出现的匹配效率和匹配精度不高的技术问题,通过在初始会话对的关联数据库中设置初始会话对的关联会话对,增加了匹配与初始会话对中的会话发起句对应的回复结果的多样性,使得匹配获得的回复结果更丰富,符合实际需要,增强用户体验,且通过仅在与初始会话对语义关联的初始数据库中建立关联会话对,减小了会话场景数据库创建的工作量和复杂度,从而大大地提高了匹配效率,且使得匹配更具有针对性,同时提高了匹配与会话发起句对应的回复结果的匹配精度。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的会话场景数据库的创建方法流程图;
图2是本发明优选实施例针对一个具体的实施例创建会话场景数据库的方法流程图;
图3是基于本发明优选实施例创建的会话场景数据库获取与会话发起句匹配的会话答复句的方法流程图;
图4是本发明优选实施例的会话场景数据库的创建装置结构框图。
附图标记说明:
10、预设装置;20、初始数据库创建装置;30、关联数据库获取装置;40、关联答复句创建装置、50、场景数据库获取装置;60、会话场景数据库获取装置。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
参照图1,本发明的优选实施例提供了一种会话场景数据库的创建方法,包括:
步骤S101,预先设定至少一个场景信息项;
步骤S102,建立与场景信息项对应的初始数据库,初始数据库包括至少一个以场景信息项为会话主题的初始会话对,初始会话对以二元句对的形式进行保存;
步骤S103,获取与初始会话对语义关联的初始数据库作为初始会话对的关联数据库;
步骤S104,在关联数据库中创建以关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,并将会话发起句以及关联答复句作为初始会话对的关联会话对;
步骤S105,将场景信息项对应的初始数据库中的初始会话对,以及以初始数据库作为关联数据库时在其中创建的关联会话对作为场景信息项的场景数据库;
步骤S106,将场景信息项对应的场景数据库的集合作为会话场景数据库。
本发明优选实施例的会话场景数据库的创建方法,通过获取与初始数据库中的初始会话对语义关联的关联数据库,并在获得的关联数据库中均建立与关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,解决了采用现有的会话场景数据库匹配与会话发起句对应的回复结果出现的匹配效率和匹配精度不高的技术问题,通过在初始会话对的关联数据库中设置初始会话对的关联会话对,增加了匹配与初始会话对中的会话发起句对应的回复结果的多样性,使得匹配获得的回复结果更丰富,符合实际需要,增强用户体验,且通过仅在与初始会话对语义关联的初始数据库中建立关联会话对,减小了会话场景数据库创建的工作量和复杂度,从而大大地提高了匹配效率,且使得匹配更具有针对性,同时提高了匹配与会话发起句对应的回复结果的匹配精度。
需要说明的是,本实施例中所指的语义关联可以通过多种方式对其进行度量,例如采用文本相似度的方式度量语义关联度、或采用人为预设关联度的方式度量语义关联度等等。
可选地,获取与初始会话对语义关联的初始数据库作为初始会话对的关联数据库包括:
选取预先设定的与初始会话对语义关联度大于预设关联阈值的场景信息项对应的初始数据库作为初始会话对的关联数据库。
本实施例通过预先设定初始会话对与初始数据库的语义关联度获得与初始会话对语义关联的初始数据库,其中预设的语义关联度是根据日常生活经验人为设置的。参照表1,表1给出了几种不同的初始会话对(表1仅仅取初始会话对的会话发起句)及人为预设的与其对应的关联场景信息项。例如,如果初始会话对包含“旅游”这种分词文本的话,那么就预设该初始会话对与场景信息项(时间、天气、地点、兴趣爱好)的语义关联度大于预设关联阈值,具体地,可以设置语义关联度为“0”或“1”,预设关联阈值为“0”,这主要是基于在日常生活经验中,当涉及到初始会话对包含“旅游”的分词文本时,人们在思考与该初始会话对对应的回复结果时,务必会考虑天气好坏的因素、有没有时间的因素、地点因素以及是否有旅游兴趣爱好因素等等,而当初始会话对包含“发邮件”的分词文本时,则人们在思考与该初始会话对对应的回复结果时,务必会考虑电子邮箱发送或接收的电子邮箱地址因素,而基本不会考虑天气好坏的因素。
表1
需要说明的是,本实施例中所指的语义关联度是人为赋予的关联度,且本实施例针对不同的初始会话对预设的语义关联度并非是精确的绝对值,而仅仅是根据日常经验以及人们思考问题的逻辑思维方式所赋予的相对精准的估计值。
可选地,获取与初始会话对语义关联的初始数据库作为初始会话对的关联数据库包括:
采集初始会话对所属的初始数据库中的所有初始会话对作为样本会话对;
计算样本会话对中的样本会话发起句或样本会话答复句与除初始会话对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始会话对对应的场景信息项的关联场景信息项;
将与初始会话对对应的场景信息项的关联场景信息项对应的初始数据库作为初始会话对的关联数据库。
具体地,假设本实施例的场景信息项包括m个场景信息项,表示为{t1、t2、…、tm},初始会话对表示为chat1,且chat1所属的初始数据库为S1(对应的场景信息项为t1),且假设初始数据库为S1包括的样本会话对为N个,具体表示为{chat1、chat2、…、chatN},则在计算样本会话对中的样本会话发起句或样本会话答复句与除初始会话对对应的场景信息项外的其他场景信息项之间的相似度具体是分别计算样本会话对chat2、…、chatN与场景信息项t2、t3、…、tm之间的相似度。
由于通过人为预设语义关联度的方式获取初始会话对的关联数据库,可能出现预设工作量太大,人工智能化程度低以及由于人工预设语义关联度主观性太强导致后续数据库匹配准确度不高的问题,故本实施例通过计算样本会话发起句或样本会话答复句与除初始会话对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始会话对对应的场景信息项的关联场景信息项。由于样本会话发起句或样本会话答复句与初始会话对同属于一个会话主题,且样本会话答复句更是样本会话发起句的答案指向内容,故其对获取与初始会话对关联的场景数据库有很大的辅助作用,故本实施例较新颖地通过计算样本会话发起句或样本会话答复句与除初始会话对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始会话对语义关联的初始数据库。
本实施例通过从样本会话发起句或样本会话答复句出发获得与初始会话对关联的场景信息项,一方面充分考虑了针对初始会话对中的会话发起句的日常常见的回复结果,从而能获取较完备的关联场景项,为后续数据库匹配奠定了基础,另一方面,提高了关联数据库获取的准确度,从而提高了后续会话场景数据匹配的匹配精度,相对于人为预先设置语义关联度的效率和精确度更高。
可选地,计算样本会话对中的样本会话发起句或样本会话答复句与除初始会话对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始会话对对应的场景信息项的关联场景信息项包括:
对样本会话对中的样本会话发起句或样本会话答复句进行预处理,获得分词文本,预处理包括分词、语义消歧、词性标注;
计算分词文本对应的词向量与除初始会话对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度;
选取相似度大于预设相似度阈值的场景信息项作为与初始会话对对应的场景信息项的关联场景信息项。
具体地,本实施例在计算分词文本对应的词向量与除初始会话对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度时,是计算每一个分词文本对应的词向量与其他场景信息项(除去初始会话对对应的场景信息项)对应的词向量之间的相似度,例如假设本实施例初始会话对包含的分词文本为{t1、t2、t3},且场景信息项包括{c1、c2、c3、c4},其中c1为初始会话对对应的场景信息项,则分别计算分词文本{t1、t2、t3}与场景信息项{c2、c3、c4}对应的词向量之间的相似度。
本实施例中的相似度是指分词文本与场景信息项之间的相似程度,具体指语义的相似程度,通过与分词文本和场景信息项对应的词向量之间的距离来表示。两个词向量的距离越短,说明该两个词向量对应的词的相似度越大,进一步说明两个词在语义更为接近。常用的描述向量距离的方式有欧氏距离、余弦夹角等。通过计算两个词向量的夹角余弦值来表示该词向量对应的两个词的相似度的计算公式为:其中,X、Y分别表示词向量X和词向量Y。cosθ的取值范围为[0,1],cosθ越接近1时,则表示两词语之间的相似度越高,反之,cosθ值越接近0,则表示两词语之间的相似度越低。通过计算词向量的夹角余弦值能够较为直观的反映出分词文本与场景信息项的相似度,从而获得与初始会话对对应的场景信息项的关联场景信息项。
此外,本实施例在计算完分词文本与场景信息项对应的词向量之间的相似度后,选取相似度大于预设相似度阈值的场景信息项作为与初始会话对对应的场景信息项的关联场景信息项,本实施例不限于采用与预设相似度阈值比较的方式选取关联场景信息项,例如还可以通过对计算出的所有分词文本与场景信息项之间的相似度进行由高到低的顺序排序,并选取预设数目的关联场景项,具体地,假设预设数目为1,则本实施例只选择一个与初始会话对对应的场景信息项关联的关联场景信息项,即最大的相似度对应的场景信息项。
可选地,选取相似度大于预设相似度阈值的场景信息项作为与初始会话对对应的场景信息项的关联场景信息项之后还包括:
根据分词文本对应的词向量与除初始会话对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度,创建分词文本与场景信息项之间的关联映射关系表,并保存关联映射关系表。
本实施例创建分词文本与场景信息项之间的映射关系表是为了方便后续采用本实施例创建的会话场景数据库进行数据匹配时,快速获取与分词文本关联的关联场景信息项。
可选地,场景信息项包括:
姓名、性别、年龄、即时通讯账号、电子邮箱地址、家庭地址、职业类别、职务、工作单位、单位地址、银行账号、好友印象、兴趣爱好、朋友圈状态、心情、最近关注话题、当前通讯状态、时间、节日、季节、地理位置信息、距离、标记添加的备注信息、通讯频率、通讯次数、通讯时长、发起历史通讯的选择方式,其中,选择方式包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式以及从拨号盘发起通讯方式。
本实施例的场景信息项不限于只包括上述的场景信息项,同时也不限于包括上述全部的场景信息项,具体由用户自定义或根据需要和系统设计复杂度和设计精度进行选取。本实施例中的发起历史通讯的选择方式具体包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式、从拨号盘发起通讯方式,这主要是基于在日常通讯场景中,通讯发起方向通讯接收方发起通讯主要包括四种选择方式,具体为从通讯录、从历史通话记录、从短信通讯模块、从拨号盘对通讯接收方发起通讯,而根据经验可知,通讯发起方对于联系较密切的通讯接收方大多数时候会选择从历史通话记录发起通讯、而对于联系较少或不常联系的通讯接收方,则大多数时候会选择从通讯录对通讯接收方发起通讯,本实施例较新颖地利用这种概率事件,将发起历史通讯的选择方式作为一个场景信息项,不仅增加了场景信息项的选取范畴,而且使得获取的场景信息项更全面和更准确。
下面针对一个具体的实施例对本发明实施例的会话场景数据库的创建方法进行更进一步说明,参照图2,该会话场景数据库的创建具体步骤包括:
步骤S201,预先设定至少一个场景信息项。具体地,假设本实施例预先设定的场景信息项包括{a1=旅游、a2=时间、a3=天气、a4=电子邮箱地址}。需要说明的是,本实施例针对不管是并列关系,还是从属关系的场景信息项,创建会话场景数据库的方法和步骤都一样。例如不管是对于并列关系的场景信息项{a1=旅游、a2=时间、a3=天气、a4=电子邮箱地址},还是对于从属关系的场景信息项{a1=旅游、a2=海边旅游、a3=自然风景区旅游、a4=国内旅游场景、a5=国外旅游场景},后续创建会话场景数据库的方法和步骤都一样。
步骤S202,建立与场景信息项对应的初始数据库,初始数据库包括至少一个以场景信息项为会话主题的初始会话对,初始会话对以二元句对的形式进行保存。具体地,假设本实施例中的初始数据库均只包括一个以二元句对形式保存的初始会话对,具体见表2。
表2
步骤S203,选取预先设定的与初始会话对语义关联度大于预设关联阈值的场景信息项对应的初始数据库作为初始会话对的关联数据库。由于本实施例初始数据库中的初始会话对的数量较少(仅为1),故若采用计算样本会话答复句与场景信息项之间的相似度获取关联场景数据库,将导致获取的关联场景数据库的数量也少,从而影响后续匹配精度,故本实施例采用预设语义关联度的方法获取关联数据库。
具体地,假设本实施例中的初始会话对为a1=旅游场景信息项对应的初始对话对(—想去旅游吗?/—好呀,我最近很想去旅游。)时,预先设置与其语义关联度大于预设关联阈值的场景信息项为{a2=时间、a3=天气},则初始会话对(—想去旅游吗?/—好呀,我最近很想去旅游。)的关联数据库为场景信息项{a2=时间、a3=天气}分别对应的初始数据库。
步骤S204,在关联数据库中创建以关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,并将会话发起句以及关联答复句作为初始会话对的关联会话对。本实施例假设在初始会话对(—想去旅游吗?/—好呀,我最近很想去旅游。)的关联数据库,即{a2=时间、a3=天气}场景信息项对应的初始数据库中分别创建以{a2=时间、a3=天气}为会话主题且与初始会话对中的会话发起句(—想去旅游吗?)对应的关联答复句。具体地,本实施例首先在a2=时间场景信息项对应的初始数据库中创建关联对话对,具体见表二(—想去旅游吗?/—最近工作比较忙,没时间去。),该关联对话对中的关联答复句是以a2=时间场景信息项为会话主题,且与初始会话对中的会话发起句(—想去旅游吗?)对应。同样地,在a3=天气场景信息项对应的初始数据库中创建关联对话对,具体见表二(—想去旅游吗?/—天气不错,去旅游是个不错的建议。),该关联对话对中的关联答复句是以a3=天气场景信息项为会话主题,且与初始会话对中的会话发起句(—想去旅游吗?)对应。
需要说明的是,本实施例仅以一个初始会话对进行说明,而在实际操作过程中,需要对所有的场景信息项对应的初始数据库中的所有初始会话对,均在与初始会话对关联的关联数据库中创建以关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句。
步骤S205,将场景信息项对应的初始数据库中的初始会话对,以及以初始数据库作为关联数据库时在其中创建的关联会话对作为场景信息项的场景数据库。具体地,本实施例最终获取的与每一个场景信息项对应的场景数据库由两部分组成,分别是与该场景信息项对应的初始数据库中的初始会话对,以及以初始数据库作为关联数据库时在其中创建的关联会话对。
步骤S206,将场景信息项对应的场景数据库的集合作为会话场景数据库。
本发明优选实施例的会话场景数据库的创建方法,通过获取与初始数据库中的初始会话对语义关联的关联数据库,并在获得的关联数据库中均建立与关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,解决了采用现有的会话场景数据库匹配与会话发起句对应的回复结果出现的匹配效率和匹配精度不高的技术问题,通过在初始会话对的关联数据库中设置初始会话对的关联会话对,增加了匹配与初始会话对中的会话发起句对应的回复结果的多样性,使得匹配获得的回复结果更丰富,符合实际需要,增强用户体验,且通过仅在与初始会话对语义关联的初始数据库中建立关联会话对,减小了会话场景数据库创建的工作量和复杂度,从而大大地提高了匹配效率,且使得匹配更具有针对性,同时提高了匹配与会话发起句对应的回复结果的匹配精度。
为了说明采用本实施例创建的会话场景数据库在匹配与会话发起句对应的回复结果时具有更高的匹配效率和匹配精度,本实施例对基于本实施例创建的会话场景数据库进行数据匹配的方法进行说明。参照图3,假设本实施例需要进行匹配的会话发起句为(“去哪吃饭?”),则基于本实施例创建的会话场景数据库匹配与会话发起句对应的回复结果的步骤包括:
步骤S301,对会话发起句进行预处理获得分词文本,预处理包括分词、语义消歧、去除停用词。具体地,本实施例针会话发起句进行预处理获得的分词文本分别为{“去”、“哪”、“吃饭”},再去除停用词后提取出分词文本为{“吃饭”}。
步骤S302,获得与分词文本关联的场景数据库。具体地,本实施例可以通过人为预设分词文本与场景信息项的语义关联度获取,也可以通过查询创建会话场景数据库时系统保存的分词文本与场景信息项的关联映射关系表获得,假设本实施例获得的与分词文本{“吃饭”}对应的关联场景信息项为{“时间场景信息项”、“地点场景信息项”、“朋友场景信息项”、“兴趣爱好场景信息项”}。
步骤S303,在与分词文本关联的场景数据库对会话发起句进行匹配,获得与会话发起句匹配的回复结果。
通过对基于本实施例创建的会话场景数据库进行数据匹配,可以发现采用本实施例创建的会话场景数据库对会话发起句进行数据匹配,一方面,能获得针对同一个会话发起句不同的回复结果,从而扩大了回复结果的可选范围,符合实际生活情景需要,提高了用户体验,另一方面,通过只在与分词文本关联的场景数据库中对会话发起句进行数据匹配,大大提高了数据匹配的匹配效率和匹配精度。
参照图4,本发明的优选实施例提供的会话场景数据库的创建装置,包括:
预设装置10,用于预先设定至少一个场景信息项;
初始数据库创建装置20,用于建立与场景信息项对应的初始数据库,初始数据库包括至少一个以场景信息项为会话主题的初始会话对,初始会话对以二元句对的形式进行保存;
关联数据库获取装置30,用于获取与初始会话对语义关联的初始数据库作为初始会话对的关联数据库;
关联答复句创建装置40,用于在关联数据库中创建以关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,并将会话发起句以及关联答复句作为初始会话对的关联会话对;
场景数据库获取装置50,用于将场景信息项对应的初始数据库中的初始会话对,以及以初始数据库作为关联数据库时在其中创建的关联会话对作为场景信息项的场景数据库;
会话场景数据库获取装置60,用于将场景信息项对应的场景数据库的集合作为会话场景数据库。
可选地,关联数据库获取装置30包括:
关联数据库选取装置,用于选取预先设定的与初始会话对语义关联度大于预设关联阈值的场景信息项对应的初始数据库作为初始会话对的关联数据库。
可选地,关联数据库获取装置30包括:
样本会话对采集装置,用于采集初始会话对所属的初始数据库中的所有初始会话对作为样本会话对;
关联场景信息项获取装置,用于计算样本会话对中的样本会话发起句或样本会话答复句与除初始会话对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始会话对对应的场景信息项的关联场景信息项;
对应装置,用于将与初始会话对对应的场景信息项的关联场景信息项对应的初始数据库作为初始会话对的关联数据库。
可选地,关联场景信息项获取装置包括:
预处理装置,用于对样本会话对中的样本会话发起句或样本会话答复句进行预处理,获得分词文本,预处理包括分词、语义消歧、词性标注;
相似度计算装置,用于计算分词文本对应的词向量与除初始会话对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度;
相似度选取装置,用于选取相似度大于预设相似度阈值的场景信息项作为与初始会话对对应的场景信息项的关联场景信息项。
本发明提供的会话场景数据库的创建装置,通过获取与初始数据库中的初始会话对语义关联的关联数据库,并在获得的关联数据库中均建立与关联数据库对应的场景信息项为会话主题且与初始会话对中的会话发起句对应的关联答复句,解决了采用现有的会话场景数据库匹配与会话发起句对应的回复结果出现的匹配效率和匹配精度不高的技术问题,通过在初始会话对的关联数据库中设置初始会话对的关联会话对,增加了匹配与初始会话对中的会话发起句对应的回复结果的多样性,使得匹配获得的回复结果更丰富,符合实际需要,增强用户体验,且通过仅在与初始会话对语义关联的初始数据库中建立关联会话对,减小了会话场景数据库创建的工作量和复杂度,从而大大地提高了匹配效率,且使得匹配更具有针对性,同时提高了匹配与会话发起句对应的回复结果的匹配精度。本实施例的会话场景数据库的创建装置的具体工作过程和工作原理可参照本实施例中的会话场景数据库的创建方法的工作过程和工作原理。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种会话场景数据库的创建方法,其特征在于,包括:
预先设定至少一个场景信息项;
建立与所述场景信息项对应的初始数据库,所述初始数据库包括至少一个以所述场景信息项为会话主题的初始会话对,所述初始会话对以二元句对的形式进行保存;
获取与所述初始会话对语义关联的初始数据库作为所述初始会话对的关联数据库;
在所述关联数据库中创建以所述关联数据库对应的场景信息项为会话主题且与所述初始会话对中的会话发起句对应的关联答复句,并将所述会话发起句以及所述关联答复句作为所述初始会话对的关联会话对;
将所述场景信息项对应的初始数据库中的初始会话对,以及以所述初始数据库作为关联数据库时在其中创建的所述关联会话对,作为所述场景信息项的场景数据库;
将所述场景信息项对应的场景数据库的集合作为会话场景数据库。
2.根据权利要求1所述的会话场景数据库的创建方法,其特征在于,获取与所述初始会话对语义关联的初始数据库,作为所述初始会话对的关联数据库包括:
选取预先设定的与所述初始会话对语义关联度大于预设关联阈值的所述场景信息项对应的初始数据库作为所述初始会话对的关联数据库。
3.根据权利要求1所述的会话场景数据库的创建方法,其特征在于,获取与所述初始会话对语义关联的初始数据库,作为所述初始会话对的关联数据库包括:
采集所述初始会话对所属的初始数据库中的所有初始会话对作为样本会话对;
计算所述样本会话对中的样本会话发起句或样本会话答复句与除所述初始会话对对应的场景信息项外的其他所述场景信息项之间的相似度,获得与所述初始会话对对应的场景信息项的关联场景信息项;
将与所述初始会话对对应的场景信息项的关联场景信息项对应的初始数据库作为所述初始会话对的关联数据库。
4.根据权利要求3所述的会话场景数据库的创建方法,其特征在于,计算所述样本会话对中的样本会话发起句或样本会话答复句与除所述初始会话对对应的场景信息项外的其他所述场景信息项之间的相似度,获得与所述初始会话对对应的场景信息项的关联场景信息项包括:
对所述样本会话对中的样本会话发起句或样本会话答复句进行预处理,获得分词文本,所述预处理包括分词、语义消歧、词性标注;
计算所述分词文本对应的词向量与除所述初始会话对对应的场景信息项外的其他所述场景信息项对应的词向量之间的相似度;
选取所述相似度大于预设相似度阈值的场景信息项作为与所述初始会话对对应的场景信息项的关联场景信息项。
5.根据权利要求4所述的会话场景数据库的创建方法,其特征在于,选取所述相似度大于预设相似度阈值的场景信息项作为与所述初始会话对对应的场景信息项的关联场景信息项之后还包括:
根据所述分词文本对应的词向量与除所述初始会话对对应的场景信息项外的其他所述场景信息项对应的词向量之间的相似度,创建所述分词文本与所述场景信息项之间的关联映射关系表,并保存所述关联映射关系表。
6.根据权利要求1-5任一所述的会话场景数据库的创建方法,其特征在于,所述场景信息项包括:
姓名、性别、年龄、即时通讯账号、电子邮箱地址、家庭地址、职业类别、职务、工作单位、单位地址、银行账号、好友印象、兴趣爱好、朋友圈状态、心情、最近关注话题、当前通讯状态、时间、节日、季节、地理位置信息、距离、标记添加的备注信息、通讯频率、通讯次数、通讯时长、发起历史通讯的选择方式,其中,所述选择方式包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式以及从拨号盘发起通讯方式。
7.一种会话场景数据库的创建装置,其特征在于,包括:
预设装置,用于预先设定至少一个场景信息项;
初始数据库创建装置,用于建立与所述场景信息项对应的初始数据库,所述初始数据库包括至少一个以所述场景信息项为会话主题的初始会话对,所述初始会话对以二元句对的形式进行保存;
关联数据库获取装置,用于获取与所述初始会话对语义关联的初始数据库作为所述初始会话对的关联数据库;
关联答复句创建装置,用于在所述关联数据库中创建以所述关联数据库对应的场景信息项为会话主题且与所述初始会话对中的会话发起句对应的关联答复句,并将所述会话发起句以及所述关联答复句作为所述初始会话对的关联会话对;
场景数据库获取装置,用于将所述场景信息项对应的初始数据库中的初始会话对,以及以所述初始数据库作为关联数据库时在其中创建的所述关联会话对作为所述场景信息项的场景数据库;
会话场景数据库获取装置,用于将所述场景信息项对应的场景数据库的集合作为会话场景数据库。
8.根据权利要求7所述的会话场景数据库的创建装置,其特征在于,所述关联数据库获取装置包括:
关联数据库选取装置,用于选取预先设定的与所述初始会话对语义关联度大于预设关联阈值的所述场景信息项对应的初始数据库作为所述初始会话对的关联数据库。
9.根据权利要求7所述的会话场景数据库的创建装置,其特征在于,所述关联数据库获取装置包括:
样本会话对采集装置,用于采集所述初始会话对所属的初始数据库中的所有初始会话对作为样本会话对;
关联场景信息项获取装置,用于计算所述样本会话对中的样本会话发起句或样本会话答复句与除所述初始会话对对应的场景信息项外的其他所述场景信息项之间的相似度,获得与所述初始会话对对应的场景信息项的关联场景信息项;
对应装置,用于将与所述初始会话对对应的场景信息项的关联场景信息项对应的初始数据库作为所述初始会话对的关联数据库。
10.根据权利要求9所述的会话场景数据库的创建装置,其特征在于,关联场景信息项获取装置包括:
预处理装置,用于对所述样本会话对中的样本会话发起句或样本会话答复句进行预处理,获得分词文本,所述预处理包括分词、语义消歧、词性标注;
相似度计算装置,用于计算所述分词文本对应的词向量与除所述初始会话对对应的场景信息项外的其他所述场景信息项对应的词向量之间的相似度;
相似度选取装置,用于选取所述相似度大于预设相似度阈值的场景信息项作为与所述初始会话对对应的场景信息项的关联场景信息项。
CN201510741076.4A 2015-11-04 2015-11-04 一种会话场景数据库的创建方法及装置 Active CN106649404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510741076.4A CN106649404B (zh) 2015-11-04 2015-11-04 一种会话场景数据库的创建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510741076.4A CN106649404B (zh) 2015-11-04 2015-11-04 一种会话场景数据库的创建方法及装置

Publications (2)

Publication Number Publication Date
CN106649404A true CN106649404A (zh) 2017-05-10
CN106649404B CN106649404B (zh) 2019-12-27

Family

ID=58851322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510741076.4A Active CN106649404B (zh) 2015-11-04 2015-11-04 一种会话场景数据库的创建方法及装置

Country Status (1)

Country Link
CN (1) CN106649404B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108114469A (zh) * 2018-01-29 2018-06-05 北京神州泰岳软件股份有限公司 基于对话的游戏交互方法、装置、终端及游戏交互模型
CN108629019A (zh) * 2018-05-08 2018-10-09 桂林电子科技大学 一种面向问答领域含有人名的问句相似度计算方法
CN109451188A (zh) * 2018-11-29 2019-03-08 平安科技(深圳)有限公司 差异性自助应答的方法、装置、计算机设备和存储介质
CN109547323A (zh) * 2018-10-17 2019-03-29 北京达佳互联信息技术有限公司 信息处理方法、装置、服务器、终端及存储介质
CN109986569A (zh) * 2017-12-29 2019-07-09 微软技术许可有限责任公司 具有角色化和性格化的聊天机器人
CN110413788A (zh) * 2019-07-30 2019-11-05 携程计算机技术(上海)有限公司 会话文本的场景类别的预测方法、系统、设备和存储介质
CN110941710A (zh) * 2019-11-27 2020-03-31 贝壳技术有限公司 用于实现会话的方法、装置、介质以及电子设备
CN115412745A (zh) * 2022-08-12 2022-11-29 联想(北京)有限公司 一种信息处理方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2645311A1 (fr) * 2012-03-26 2013-10-02 Orange Procédé et système de notification, à un utilisateur d'un terminal, de données contextuelles relatives à des éléments identifiés dans une application de type répertoire
CN104346480A (zh) * 2014-11-27 2015-02-11 百度在线网络技术(北京)有限公司 信息挖掘方法和装置
CN104598445A (zh) * 2013-11-01 2015-05-06 腾讯科技(深圳)有限公司 自动问答系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2645311A1 (fr) * 2012-03-26 2013-10-02 Orange Procédé et système de notification, à un utilisateur d'un terminal, de données contextuelles relatives à des éléments identifiés dans une application de type répertoire
CN104598445A (zh) * 2013-11-01 2015-05-06 腾讯科技(深圳)有限公司 自动问答系统和方法
CN104346480A (zh) * 2014-11-27 2015-02-11 百度在线网络技术(北京)有限公司 信息挖掘方法和装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11361166B2 (en) 2017-12-29 2022-06-14 Microsoft Technology Licensing, Llc Characterized chatbot with personality
CN109986569B (zh) * 2017-12-29 2022-08-23 微软技术许可有限责任公司 具有角色化和性格化的聊天机器人
CN109986569A (zh) * 2017-12-29 2019-07-09 微软技术许可有限责任公司 具有角色化和性格化的聊天机器人
CN108114469A (zh) * 2018-01-29 2018-06-05 北京神州泰岳软件股份有限公司 基于对话的游戏交互方法、装置、终端及游戏交互模型
CN108629019A (zh) * 2018-05-08 2018-10-09 桂林电子科技大学 一种面向问答领域含有人名的问句相似度计算方法
US11483263B2 (en) 2018-10-17 2022-10-25 Beijing Dajia Internet Information Technology Co., Ltd. Method and terminal for facilitating chat between users of two terminals
CN109547323A (zh) * 2018-10-17 2019-03-29 北京达佳互联信息技术有限公司 信息处理方法、装置、服务器、终端及存储介质
CN109451188A (zh) * 2018-11-29 2019-03-08 平安科技(深圳)有限公司 差异性自助应答的方法、装置、计算机设备和存储介质
CN110413788A (zh) * 2019-07-30 2019-11-05 携程计算机技术(上海)有限公司 会话文本的场景类别的预测方法、系统、设备和存储介质
CN110413788B (zh) * 2019-07-30 2023-01-31 携程计算机技术(上海)有限公司 会话文本的场景类别的预测方法、系统、设备和存储介质
CN110941710A (zh) * 2019-11-27 2020-03-31 贝壳技术有限公司 用于实现会话的方法、装置、介质以及电子设备
CN115412745A (zh) * 2022-08-12 2022-11-29 联想(北京)有限公司 一种信息处理方法及电子设备
CN115412745B (zh) * 2022-08-12 2024-02-27 联想(北京)有限公司 一种信息处理方法及电子设备

Also Published As

Publication number Publication date
CN106649404B (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
CN106649404A (zh) 一种会话场景数据库的创建方法及装置
CN106649410A (zh) 一种获取聊天回复内容的方法及装置
CN102955781B (zh) 一种人物搜索方法及装置
CN105227448B (zh) 一种信息推送方法及系统
KR101667946B1 (ko) 지리적 위치 정보와 연관된 부가 정보를 결정하는 기술
CN108664472A (zh) 自然语言处理方法、装置及其设备
CN109996026B (zh) 基于穿戴式设备的视频特效互动方法、装置、设备及介质
CN102497391A (zh) 服务器、移动终端和提示方法
CN103905482B (zh) 推送信息的方法、推送服务器和系统
CN103593412A (zh) 一种基于树形结构问题的应答方法及系统
CN107623621A (zh) 聊天语料收集方法和装置
CN106709072A (zh) 一种基于共享语料库获得智能会话回复内容的方法
CN106874452A (zh) 一种获取会话回复内容的方法
CN107273375A (zh) 兴趣点数据显示方法及终端
CN106844734B (zh) 一种自动生成会话回复内容的方法
CN112989177B (zh) 信息处理方法、装置、电子设备及计算机存储介质
WO2018145436A1 (zh) 一种从会话内容中提取会话对的方法
CN106649280A (zh) 一种创建共享语料库的方法
CN107729457B (zh) 一种信息智能检索的方法、装置及存储介质
CN107506348A (zh) 一种基于聊天内容挖掘代跑客户的方法及装置
CN107015968A (zh) 一种基于共享语料库主动发起会话的方法
CN112860724A (zh) 一种用于人机融合客服系统的自动地址纠偏方法
CN110704637B (zh) 一种多模态知识库的构建方法、装置及计算机可读介质
CN108831473B (zh) 一种音频处理方法及装置
CN106503744A (zh) 对聊天过程中的输入表情进行自动纠错的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant