CN106649410B - 一种获取聊天回复内容的方法及装置 - Google Patents

一种获取聊天回复内容的方法及装置 Download PDF

Info

Publication number
CN106649410B
CN106649410B CN201510742339.3A CN201510742339A CN106649410B CN 106649410 B CN106649410 B CN 106649410B CN 201510742339 A CN201510742339 A CN 201510742339A CN 106649410 B CN106649410 B CN 106649410B
Authority
CN
China
Prior art keywords
chat
scene information
initial
information item
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510742339.3A
Other languages
English (en)
Other versions
CN106649410A (zh
Inventor
陈包容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510742339.3A priority Critical patent/CN106649410B/zh
Publication of CN106649410A publication Critical patent/CN106649410A/zh
Application granted granted Critical
Publication of CN106649410B publication Critical patent/CN106649410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种获取聊天回复内容的方法及装置,该方法通过预先设立至少由一个场景信息项构成的场景信息项集;建立以场景信息项为聊天主题的场景数据库;对聊天发起句进行预处理,获得分词文本;在场景信息项集中获取与分词文本关联的场景信息项,得到关联场景信息项;采用与关联场景信息项对应的场景数据库对聊天发起句进行匹配,获得与聊天发起句匹配的聊天回复内容,解决了现有获取聊天回复内容只采用单一数据库中进行数据匹配,使得获取的聊天回复内容不准确或不全面的技术问题,且采用多个关联场景信息项对应的场景数据库对聊天发起句进行数据匹配,使得匹配获得的聊天回复内容更丰富,提升了用户体验。

Description

一种获取聊天回复内容的方法及装置
技术领域
本发明涉及通讯技术领域,具体涉及一种获取聊天回复内容的方法及装置。
背景技术
目前,不管是智能聊天机器人系统提供的智能聊天回复内容、还是移动通讯终端提供给通讯双方用于选择或智能回复的聊天回复内容,大多是通过数据库匹配的方式获取。这种通过数据库匹配方法获取聊天回复内容的方法主要分为二个步骤,即首先对聊天发起句进行预处理,获得分词文本,然后将获得的分词文本与预先建立的数据库进行匹配,从而获得聊天回复内容。但这种匹配方式往往只采用单一数据库进行数据匹配,从而使得获取的聊天回复内容可能不准确或不全面,从而导致聊天的智能化水平低以及用户体验不佳。
例如针对聊天发起句“一起去旅游吗?”,其回答可通过匹配与“旅游”话题对应的数据库获得与之对应的回复结果(例如“好呀,我喜欢旅游。”),然而,针对同一个聊天发起句(例如“一起去旅游吗?”)在现实生活中往往需要有不同的回复结果(例如“天气不好,下次再去,怎么样?”、“我比较喜欢宅在家,不喜欢旅游。”、“最近工作太忙了,抽不出时间去旅游。”等等)。
发明内容
本发明提供了一种获取聊天回复内容的方法及装置,以解决现有获取聊天回复内容只采用单一数据库进行数据匹配,从而使得获取的聊天回复内容不准确或不全面的技术问题。
根据本发明的一方面,提供了一种获取聊天回复内容的方法,包括:
预先设立至少由一个场景信息项构成的场景信息项集;
建立以场景信息项为聊天主题的场景数据库;
对聊天发起句进行预处理,获得分词文本,预处理包括分词、语义消歧、去除停用词;
在场景信息项集中获取与分词文本关联的场景信息项,得到关联场景信息项;
采用与关联场景信息项对应的场景数据库对聊天发起句进行匹配,获得与聊天发起句匹配的聊天回复内容。
进一步地,建立以场景信息项为主题的场景数据库包括:
建立与场景信息项对应的初始数据库,初始数据库包括至少一个以场景信息项为聊天主题的初始聊天对,初始聊天对以二元句对的形式进行保存;
获取与初始聊天对语义关联的初始数据库,作为初始聊天对的关联数据库;
在关联数据库中创建以关联数据库对应的场景信息项为聊天主题且与初始聊天对中的聊天发起句对应的关联答复句,并将聊天发起句以及关联答复句作为初始聊天对的关联聊天对;
将场景信息项对应的初始数据库中的初始聊天对,以及以初始数据库作为关联数据库时在其中创建的关联聊天对,作为场景信息项的场景数据库。
进一步地,获取与初始聊天对语义关联的初始数据库,作为初始聊天对的关联数据库包括:
选取预先设定的与初始聊天对语义关联度大于预设关联阈值的场景信息项对应的初始数据库作为初始聊天对的关联数据库。
进一步地,获取与初始聊天对语义关联的初始数据库,作为初始聊天对的关联数据库包括:
采集初始聊天对所属的初始数据库中的所有初始聊天对作为样本聊天对;
计算样本聊天对中的样本聊天发起句或样本聊天答复句与场景信息项集中除初始聊天对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始聊天对对应的场景信息项的关联场景信息项;
将与初始聊天对对应的场景信息项的关联场景信息项对应的初始数据库作为初始聊天对的关联数据库。
进一步地,计算样本聊天对中的样本聊天发起句或样本聊天答复句与场景信息项集中除初始聊天对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始聊天对对应的场景信息项的关联场景信息项包括:
对样本聊天对中的样本聊天发起句或样本聊天答复句进行预处理,获得分词文本,预处理包括分词、语义消歧、词性标注;
计算分词文本对应的词向量与场景信息项集中除初始聊天对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度;
选取相似度大于预设相似度阈值的场景信息项作为与初始聊天对对应的场景信息项的关联场景信息项。
进一步地,选取相似度大于预设相似度阈值的场景信息项作为与初始聊天对对应的场景信息项的关联场景信息项之后还包括:
根据分词文本对应的词向量与场景信息项集中除初始聊天对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度,创建分词文本与场景信息项之间的关联映射关系表,并保存关联映射关系表。
进一步地,在场景信息项集中获取与分词文本关联的场景信息项,得到关联场景信息项包括:
根据关联映射关系表在场景信息项集中获得与分词文本关联的场景信息项,得到关联场景信息项。
进一步地,场景信息项包括:
姓名、性别、年龄、即时通讯账号、电子邮箱地址、家庭地址、职业类别、职务、工作单位、单位地址、银行账号、好友印象、兴趣爱好、朋友圈状态、心情、最近关注话题、当前通讯状态、时间、节日、季节、地理位置信息、距离信息、通讯频率、通讯次数、通讯时长、发起历史通讯的选择方式,其中,选择方式包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式以及从拨号盘发起通讯方式。
根据本发明的另一方面,提供了一种获取聊天回复内容的装置,包括:
预设装置,用于预先设立至少由一个场景信息项构成的场景信息项集;
场景数据库创建装置,用于建立以场景信息项为聊天主题的场景数据库;
预处理装置,用于对聊天发起句进行预处理,获得分词文本,预处理包括分词、语义消歧、去除停用词;
关联场景信息项获取装置,用于在场景信息项集中获取与分词文本关联的场景信息项,得到关联场景信息项;
匹配装置,用于采用与关联场景信息项对应的场景数据库对聊天发起句进行匹配,获得与聊天发起句匹配的聊天回复内容。
进一步地,场景数据库创建装置包括:
初始数据库创建装置,用于建立与场景信息项对应的初始数据库,初始数据库包括至少一个以场景信息项为聊天主题的初始聊天对,初始聊天对以二元句对的形式进行保存;
关联数据库获取装置,用于获取与初始聊天对语义关联的初始数据库,作为初始聊天对的关联数据库;
关联聊天对创建装置,用于在关联数据库中创建以关联数据库对应的场景信息项为聊天主题且与初始聊天对中的聊天发起句对应的关联答复句,并将聊天发起句以及关联答复句作为初始聊天对的关联聊天对;
场景数据库确定装置,用于将场景信息项对应的初始数据库中的初始聊天对,以及以初始数据库作为关联数据库时在其中创建的关联聊天对,作为场景信息项的场景数据库。
本发明具有以下有益效果:
本发明提供了一种获取聊天回复内容的方法及装置,该方法通过建立多个以预先设定的场景信息项为主题的场景数据库,并在多个场景信息项中获取与聊天发起句经预处理后的分词文本关联的关联场景信息项,以及采用获取的与关联场景信息项对应的场景数据库对聊天发起句进行匹配,从而获得相对准确和全面的聊天回复内容,解决了现有获取聊天回复内容只采用单一数据库中进行数据匹配,从而使得获取的聊天回复内容不准确或不全面的技术问题,且采用多个关联场景信息项对应的场景数据库对聊天发起句进行数据匹配,使得匹配获得的聊天回复内容更丰富,符合实际需要,增强了用户体验。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的获取聊天回复内容的方法流程图;
图2是本发明优选实施例针对一个具体实施例建立以场景信息项为主题的场景数据库的方法流程图;
图3是本发明优选实施例的获取聊天回复内容的装置结构框图。
附图标记说明:
10、预设装置;20、场景数据库创建装置;30、预处理装置;40、关联场景信息项获取装置、50、匹配装置。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
参照图1,本发明的优选实施例提供了一种获取聊天回复内容的方法,包括:
步骤S101,预先设立至少由一个场景信息项构成的场景信息项集;
步骤S102,建立以场景信息项为聊天主题的场景数据库;
步骤S103,对聊天发起句进行预处理,获得分词文本,预处理包括分词、语义消歧、去除停用词;
步骤S104,在场景信息项集中获取与分词文本关联的场景信息项,得到关联场景信息项;
步骤S105,采用与关联场景信息项对应的场景数据库对聊天发起句进行匹配,获得与聊天发起句匹配的聊天回复内容。
本发明优选实施例的获取聊天回复内容的方法,通过建立多个以预先设定的场景信息项为主题的场景数据库,并在多个场景信息项中获取与聊天发起句经预处理后的分词文本关联的关联场景信息项,以及采用获取的与关联场景信息项对应的场景数据库对聊天发起句进行匹配,从而获得相对准确和全面的聊天回复内容,解决了现有获取聊天回复内容只采用单一数据库中进行数据匹配,从而使得获取的聊天回复内容不准确或不全面的技术问题,且采用多个关联场景信息项对应的场景数据库对聊天发起句进行数据匹配,使得匹配获得的聊天回复内容更丰富,符合实际需要,增强了用户体验。
可选地,建立以场景信息项为主题的场景数据库包括:
建立与场景信息项对应的初始数据库,初始数据库包括至少一个以场景信息项为聊天主题的初始聊天对,初始聊天对以二元句对的形式进行保存;
获取与初始聊天对语义关联的初始数据库,作为初始聊天对的关联数据库;
在关联数据库中创建以关联数据库对应的场景信息项为聊天主题且与初始聊天对中的聊天发起句对应的关联答复句,并将聊天发起句以及关联答复句作为初始聊天对的关联聊天对;
将场景信息项对应的初始数据库中的初始聊天对,以及以初始数据库作为关联数据库时在其中创建的关联聊天对,作为场景信息项的场景数据库。
由于仅仅设置多个以场景信息项为聊天主题的场景数据库,以及采用获取的与关联场景信息项对应的场景数据库对聊天发起句进行匹配并不能保证均能在与关联场景信息项对应的场景数据库中获取与聊天发起句匹配的聊天回复内容,为了解决该问题,较容易想到的做法是在所有的场景数据库均建立与聊天发起句匹配的聊天回复内容,或在同一个场景数据库中针对同一个聊天发起句设置多个聊天答复句,例如针对聊天发起句“一起去旅游吗?”,便可以分别在关于天气、兴趣爱好、时间等数据库中设置聊天答复句,或者在同一个场景数据库中针对该聊天发起句设置多个聊天答复句来解决。但是依然存在以下问题:1、通过在不同的场景数据库中针对同一个聊天发起句均设置聊天答复句,势必会增大场景数据库创建的复杂度和工作量,从而影响数据匹配的效率;2、匹配没有针对性,从而导致匹配精度低;3、通过在同一个场景数据库中针对同一个聊天发起句设置多个聊天答复句容易导致设置的聊天答复句不完备,从而影响匹配的精度。
为了解决上述问题,本实施例通过获取与初始数据库中的初始聊天对语义关联的关联数据库,并在获得的关联数据库中均建立与关联数据库对应的场景信息项为聊天主题且与初始聊天对中的聊天发起句对应的关联答复句,通过在初始聊天对的关联数据库中设置初始聊天对的关联聊天对,增加了匹配与初始聊天对中的聊天发起句对应的回复结果的多样性,使得匹配获得的回复结果更丰富,符合实际需要,增强用户体验,且通过仅在与初始聊天对语义关联的初始数据库中建立关联聊天对,减小了场景数据库创建的工作量和复杂度,从而大大地提高了匹配效率,且使得匹配更具有针对性,同时提高了匹配与聊天发起句对应的回复结果的匹配精度。
需要说明的是,本实施例中所指的语义关联可以通过多种方式对其进行度量,例如采用文本相似度的方式度量语义关联度、采用人为预设关联度的方式度量语义关联度等等。
可选地,获取与初始聊天对语义关联的初始数据库,作为初始聊天对的关联数据库包括:
选取预先设定的与初始聊天对语义关联度大于预设关联阈值的场景信息项对应的初始数据库作为初始聊天对的关联数据库。
本实施例通过预先设定初始聊天对与初始数据库的语义关联度获得与初始聊天对语义关联的初始数据库,其中预设的语义关联度是根据日常生活经验人为设置的。参照表1,表1给出了几种不同的初始聊天对(表1仅仅取初始聊天对的聊天发起句)及人为预设的与其对应的关联场景信息项。例如,如果初始聊天对包含“旅游”这种分词文本的话,那么就预设该初始聊天对与场景信息项(时间、天气、地点、兴趣爱好)的语义关联度大于预设关联阈值,具体地,可以设置语义关联度为“0”或“1”,预设关联阈值为“0”,这主要是基于在日常生活经验中,当涉及到初始聊天对包含“旅游”的分词文本时,人们在思考与该初始聊天对对应的回复结果时,务必会考虑天气好坏的因素、有没有时间的因素、地点因素以及是否有旅游兴趣爱好因素等等,而当初始聊天对包含“发邮件”的分词文本时,则人们在思考与该初始聊天对对应的回复结果时,务必会考虑电子邮箱发送或接收的电子邮箱地址因素,而基本不会考虑天气好坏的因素。
表1
Figure BDA0000838814860000061
需要说明的是,本实施例中所指的语义关联度是人为赋予的关联度,且本实施例针对不同的初始聊天对预设的语义关联度并非是精确的绝对值,而仅仅是根据日常经验以及人们思考问题的逻辑思维方式所赋予的相对精准的估计值。
可选地,获取与初始聊天对语义关联的初始数据库,作为初始聊天对的关联数据库包括:
采集初始聊天对所属的初始数据库中的所有初始聊天对作为样本聊天对;
计算样本聊天对中的样本聊天发起句或样本聊天答复句与场景信息项集中除初始聊天对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始聊天对对应的场景信息项的关联场景信息项;
将与初始聊天对对应的场景信息项的关联场景信息项对应的初始数据库作为初始聊天对的关联数据库。
具体地,假设本实施例的场景信息项集包括m个场景信息项,表示为{t1、t2、…、tm},初始聊天对表示为chat1,且chat1所属的初始数据库为S1(对应的场景信息项为t1),且假设初始数据库为S1包括的样本聊天对为N个,具体表示为{chat1、chat2、…、chatN},则在计算样本聊天对中的样本聊天发起句或样本聊天答复句与场景信息项集中除初始聊天对对应的场景信息项外的其他场景信息项之间的相似度具体是分别计算样本聊天对chat2、…、chatN与t2、t3、…、tm之间的相似度。
由于通过人为预设语义关联度的方式获取初始聊天对的关联数据库,可能出现预设工作量太大,人工智能化程度低以及由于人工预设语义关联度主观性太强导致后续数据库匹配准确度不高的问题,故本实施例通过计算样本聊天发起句或样本聊天答复句与场景信息项集中除初始聊天对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始聊天对对应的场景信息项的关联场景信息项。由于样本聊天发起句或样本聊天答复句与初始聊天对同属于一个聊天主题,且样本聊天答复句更是样本聊天发起句的答案指向内容,故其对获取与初始聊天对关联的初始数据库有很大的辅助作用,故本实施例较新颖地通过计算样本聊天发起句或样本聊天答复句与场景信息项集中除初始聊天对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始聊天对语义关联的关联数据库。
本实施例通过从样本聊天发起句或样本聊天答复句出发获得与初始聊天对关联的场景信息项,一方面充分考虑了针对初始聊天对中的聊天发起句的日常常见的回复结果,从而能获取较完备的关联场景项,为后续数据库匹配奠定了基础,另一方面,提高了关联数据库获取的准确度,从而提高了后续数据匹配的匹配精度,相对于人为预先设置语义关联度的效率和精确度更高。
可选地,计算样本聊天对中的样本聊天发起句或样本聊天答复句与场景信息项集中除初始聊天对对应的场景信息项外的其他场景信息项之间的相似度,获得与初始聊天对对应的场景信息项的关联场景信息项包括:
对样本聊天对中的样本聊天发起句或样本聊天答复句进行预处理,获得分词文本,预处理包括分词、语义消歧、词性标注;
计算分词文本对应的词向量与场景信息项集中除初始聊天对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度;
选取相似度大于预设相似度阈值的场景信息项作为与初始聊天对对应的场景信息项的关联场景信息项。
具体地,本实施例在计算分词文本对应的词向量与场景信息项集中除初始聊天对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度时,是计算每一个分词文本对应的词向量与其他场景信息项(除去初始聊天对对应的场景信息项)对应的词向量之间的相似度,例如假设本实施例初始聊天对包含的分词文本为{t1、t2、t3},且场景信息项集包括{c1、c2、c3、c4},其中c1为初始聊天对对应的场景信息项,则分别计算分词文本{t1、t2、t3}与场景信息项{c2、c3、c4}对应的词向量之间的相似度。
本实施例中的相似度是指分词文本与场景信息项之间的相似程度,具体指语义的相似程度,通过与分词文本和场景信息项对应的词向量之间的距离来表示。两个词向量的距离越短,说明该两个词向量对应的词的相似度越大,进一步说明两个词在语义更为接近。常用的描述向量距离的方式有欧氏距离、余弦夹角等。通过计算两个词向量的夹角余弦值来表示该词向量对应的两个词的相似度的计算公式为:
Figure BDA0000838814860000071
其中,X、Y分别表示词向量X和词向量Y。cosθ的取值范围为[0,1],cosθ越接近1时,则表示两词语之间的相似度越高,反之,cosθ值越接近0,则表示两词语之间的相似度越低。通过计算词向量的夹角余弦值能够较为直观的反映出分词文本与场景信息项的相似度,从而获得与初始聊天对对应的场景信息项的关联场景信息项。
此外,本实施例在计算完分词文本与场景信息项对应的词向量之间的相似度后,选取相似度大于预设相似度阈值的场景信息项作为与初始聊天对对应的场景信息项的关联场景信息项,本实施例不限于采用与预设相似度阈值比较的方式选取关联场景信息项,例如还可以通过对计算出的所有分词文本与场景信息项之间的相似度进行由高到低的顺序排序,并选取预设数目的关联场景项,具体地,假设预设数目为1,则本实施例只选择一个与初始聊天对对应的场景信息项关联的关联场景信息项,即最大的相似度对应的场景信息项。
可选地,选取相似度大于预设相似度阈值的场景信息项作为与初始聊天对对应的场景信息项的关联场景信息项之后还包括:
根据分词文本对应的词向量与场景信息项集中除初始聊天对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度,创建分词文本与场景信息项之间的关联映射关系表,并保存关联映射关系表。
本实施例创建分词文本与场景信息项之间的映射关系表是为了方便后续采用本实施例创建的场景数据库进行数据匹配时,快速获取与分词文本关联的关联场景信息项。
可选地,在场景信息项集中获取与分词文本关联的场景信息项,得到关联场景信息项包括:
根据关联映射关系表在场景信息项集中获得与分词文本关联的场景信息项,得到关联场景信息项。
可选地,场景信息项包括:
姓名、性别、年龄、即时通讯账号、电子邮箱地址、家庭地址、职业类别、职务、工作单位、单位地址、银行账号、好友印象、兴趣爱好、朋友圈状态、心情、最近关注话题、当前通讯状态、时间、节日、季节、地理位置信息、距离信息、通讯频率、通讯次数、通讯时长、发起历史通讯的选择方式,其中,选择方式包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式以及从拨号盘发起通讯方式。
本实施例的场景信息项不限于只包括上述的场景信息项,同时也不限于包括上述全部的场景信息项,具体由用户自定义或根据需要和系统设计复杂度和设计精度进行选取。本实施例中的发起历史通讯的选择方式具体包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式、从拨号盘发起通讯方式,这主要是基于在日常通讯场景中,通讯发起方向通讯接收方发起通讯主要包括四种选择方式,具体为从通讯录、从历史通话记录、从短信通讯模块、从拨号盘对通讯接收方发起通讯,而根据经验可知,通讯发起方对于联系较密切的通讯接收方大多数时候会选择从历史通话记录发起通讯、而对于联系较少或不常联系的通讯接收方,则大多数时候会选择从通讯录对通讯接收方发起通讯,本实施例较新颖地利用这种概率事件,将发起历史通讯的选择方式作为一个场景信息项,不仅增加了场景信息项的选取范畴,而且使得获取的场景信息项更全面和更准确。
下面本发明优选实施例针对一个具体实施例对建立以场景信息项为主题的场景数据库的方法进行更进一步说明,参照图2,本发明优选实施建立以场景信息项为主题的场景数据库的具体步骤包括:
步骤S201,建立与场景信息项对应的初始数据库,初始数据库包括至少一个以场景信息项为聊天主题的初始聊天对,初始聊天对以二元句对的形式进行保存。具体地,假设本实施例预先设定的场景信息项集包括{a1=旅游、a2=时间、a3=天气、a4=电子邮箱地址}。需要说明的是,本实施例针对不管是并列关系,还是从属关系的场景信息项,创建场景数据库的方法和步骤都一样。例如不管是对于并列关系的场景信息项{a1=旅游、a2=时间、a3=天气、a4=电子邮箱地址},还是对于从属关系的场景信息项{a1=旅游、a2=海边旅游、a3=自然风景区旅游、a4=国内旅游场景、a5=国外旅游场景},后续创建场景数据库的方法和步骤都一样。此外,假设本实施例中的初始数据库均只包括一个以二元句对形式保存的初始聊天对,具体见表2。
表2
Figure BDA0000838814860000091
步骤S202,选取预先设定的与初始聊天对语义关联度大于预设关联阈值的场景信息项对应的初始数据库,作为初始聊天对的关联数据库。由于本实施例初始数据库中的初始聊天对的数量较少(仅为1),故若采用计算样本聊天答复句与场景信息项之间的相似度获取关联场景数据库,将导致获取的关联场景数据库的数量也少,从而影响后续匹配精度,故本实施例采用预设语义关联度的方法获取关联数据库。
具体地,假设本实施例中的初始聊天对为a1=旅游场景信息项对应的初始对话对(—想去旅游吗?/—好呀,我最近很想去旅游。),且预先设置与初始对话对中的初始会话发起句经分词后获得的分词文本“旅游”语义关联度大于预设关联阈值的场景信息项为{a2=时间、a3=天气},则初始聊天对(—想去旅游吗?/—好呀,我最近很想去旅游。)的关联数据库为场景信息项{a2=时间、a3=天气}分别对应的初始数据库。
步骤S203,在关联数据库中创建以关联数据库对应的场景信息项为聊天主题且与初始聊天对中的聊天发起句对应的关联答复句,并将聊天发起句以及关联答复句作为初始聊天对的关联聊天对。本实施例假设在初始聊天对(—想去旅游吗?/—好呀,我最近很想去旅游。)的关联数据库,即{a2=时间、a3=天气}场景信息项对应的初始数据库中分别创建以{a2=时间、a3=天气}为聊天主题且与初始聊天对中的聊天发起句(—想去旅游吗?)对应的关联答复句。具体地,本实施例首先在a2=时间场景信息项对应的初始数据库中创建关联对话对,具体见表二(—想去旅游吗?/—最近工作比较忙,没时间去。),该关联对话对中的关联答复句是以a2=时间场景信息项为聊天主题,且与初始聊天对中的聊天发起句(—想去旅游吗?)对应。同样地,在a3=天气场景信息项对应的初始数据库中创建关联对话对,具体见表二(—想去旅游吗?/—天气不错,去旅游是个不错的建议。),该关联对话对中的关联答复句是以a3=天气场景信息项为聊天主题,且与初始聊天对中的聊天发起句(—想去旅游吗?)对应。
需要说明的是,本实施例仅以一个初始聊天对进行说明,而在实际操作过程中,需要对所有的场景信息项对应的初始数据库中的所有初始聊天对,均在与初始聊天对关联的关联数据库中创建以关联数据库对应的场景信息项为聊天主题且与初始聊天对中的聊天发起句对应的关联答复句。
步骤S204,将场景信息项对应的初始数据库中的初始聊天对,以及以初始数据库作为关联数据库时在其中创建的关联聊天对作为场景信息项的场景数据库。具体地,本实施例最终获取的与每一个场景信息项对应的场景数据库由两部分组成,分别是与该场景信息项对应的初始数据库中的初始聊天对,以及以初始数据库作为关联数据库时在其中创建的关联聊天对。
本实施例通过获取与初始数据库中的初始聊天对语义关联的关联数据库,并在获得的关联数据库中均建立与关联数据库对应的场景信息项为聊天主题且与初始聊天对中的聊天发起句对应的关联答复句,通过在初始聊天对的关联数据库中设置初始聊天对的关联聊天对,增加了匹配与初始聊天对中的聊天发起句对应的回复结果的多样性,使得匹配获得的回复结果更丰富,符合实际需要,增强用户体验,且通过仅在与初始聊天对语义关联的初始数据库中建立关联聊天对,减小了场景数据库创建的工作量和复杂度,从而大大地提高了匹配效率,且使得匹配更具有针对性,同时提高了匹配与聊天发起句对应的回复结果的匹配精度。
参照图3,本发明的优选实施例提供的获取聊天回复内容的装置,包括:
预设装置10,用于预先设立至少由一个场景信息项构成的场景信息项集;
场景数据库创建装置20,用于建立以场景信息项为聊天主题的场景数据库;
预处理装置30,用于对聊天发起句进行预处理,获得分词文本,预处理包括分词、语义消歧、去除停用词;
关联场景信息项获取装置40,用于在场景信息项集中获取与分词文本关联的场景信息项,得到关联场景信息项;
匹配装置50,用于采用与关联场景信息项对应的场景数据库对聊天发起句进行匹配,获得与聊天发起句匹配的聊天回复内容。
可选地,场景数据库创建装置20包括:
初始数据库创建装置,用于建立与场景信息项对应的初始数据库,初始数据库包括至少一个以场景信息项为聊天主题的初始聊天对,初始聊天对以二元句对的形式进行保存;
关联数据库获取装置,用于获取与初始聊天对语义关联的初始数据库,作为初始聊天对的关联数据库;
关联聊天对创建装置,用于在关联数据库中创建以关联数据库对应的场景信息项为聊天主题且与初始聊天对中的聊天发起句对应的关联答复句,并将聊天发起句以及关联答复句作为初始聊天对的关联聊天对;
场景数据库确定装置,用于将场景信息项对应的初始数据库中的初始聊天对,以及以初始数据库作为关联数据库时在其中创建的关联聊天对,作为场景信息项的场景数据库。
本发明提供了的获取聊天回复内容的装置,通过建立多个以预先设定的场景信息项为主题的场景数据库,并在多个场景信息项中获取与聊天发起句经预处理后的分词文本关联的关联场景信息项,以及采用获取的与关联场景信息项对应的场景数据库对聊天发起句进行匹配,从而获得相对准确和全面的聊天回复内容,解决了现有获取聊天回复内容只采用单一数据库中进行数据匹配,从而使得获取的聊天回复内容不准确或不全面的技术问题,且采用多个关联场景信息项对应的场景数据库对聊天发起句进行数据匹配,使得匹配获得的聊天回复内容更丰富,符合实际需要,增强了用户体验。本实施例的获取聊天回复内容的装置的具体工作过程和工作原理可参照本实施例中的获取聊天回复内容的方法的工作过程和工作原理。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种获取聊天回复内容的方法,其特征在于,包括:
预先设立至少由一个场景信息项构成的场景信息项集;
建立以所述场景信息项为聊天主题的场景数据库,包括:
建立与所述场景信息项对应的初始数据库,所述初始数据库包括至少一个以所述场景信息项为聊天主题的初始聊天对,所述初始聊天对以二元句对的形式进行保存;
获取与所述初始聊天对语义关联的初始数据库,作为所述初始聊天对的关联数据库;
在所述关联数据库中创建以所述关联数据库对应的场景信息项为聊天主题且与所述初始聊天对中的聊天发起句对应的关联答复句,并将所述聊天发起句以及所述关联答复句作为所述初始聊天对的关联聊天对;
将所述场景信息项对应的初始数据库中的初始聊天对,以及以所述初始数据库作为关联数据库时在其中创建的所述关联聊天对,作为所述场景信息项的场景数据库;
对聊天发起句进行预处理,获得分词文本,所述预处理包括分词、语义消歧、去除停用词;
在所述场景信息项集中获取与所述分词文本关联的场景信息项,得到关联场景信息项;
采用与所述关联场景信息项对应的场景数据库对所述聊天发起句进行匹配,获得与所述聊天发起句匹配的聊天回复内容。
2.根据权利要求1所述的获取聊天回复内容的方法,其特征在于,获取与所述初始聊天对语义关联的初始数据库,作为所述初始聊天对的关联数据库包括:
选取预先设足的与所述初始聊天对语义关联度大于预设关联阈值的所述场景信息项对应的初始数据库作为所述初始聊天对的关联数据库。
3.根据权利要求1所述的获取聊天回复内容的方法,其特征在于,获取与所述初始聊天对语义关联的初始数据库,作为所述初始聊天对的关联数据库包括:
采集所述初始聊天对所属的初始数据库中的所有初始聊天对作为样本聊天对;
计算所述样本聊天对中的样本聊天发起句或样本聊天答复句与所述场景信息项集中除所述初始聊天对对应的场景信息项外的其他场景俗息项还间的相似度,获得与所述初始聊天对对应的场景信息项的关联场景信息项;
将与所述初始聊天对对应的场景信息项的关联场景信息项对应的初始数据厍作为所述初始聊天对的关联数据库。
4.根据权利要求3所述的获取聊天回复内容的方法,其特征在于,计算所述样本聊天对中的样本聊天发起句或样本聊天答复句与所述场景信息项集中除所述初始聊天对对应的场景信息项外的其他场景信息项之间的相似度,获得与所述初始聊天对对应的场景信息项的关联场景信息项包括:
对所述样本聊天对中的样本聊天发起句或样本聊天答复句进行预处理,获得分词文本,所述预处理包括分词、语义消歧、词性标注;
计算所述分词 文本对应的词向量与所述场景信息项集中除所述初始聊天对对应的场景信息项外的其他场景信息项对应的词向量之间的相似度;
选取所述相似度大于预设相似度阈值的场景信息项作为与所述初始聊天对对应的场景信息项的关联场景信息项。
5.根据权利要求4所述的获取聊天回复内容的方法,其特征在于,选取所述相似度大于预设相似度阈值的场景信息项作为与所述初始聊天对对应的场景信息项的关联场景信息项之后还包括:
根据所述分词文本对应的词向量与所述场景信息项集中除所述初始聊天对对应的场景信息项外的其他所述场景信息项对应的词向量之间的相似度,创建所述分词文本与所述场景信息项之间的关联映射关系表,并保存所述关联映射关系表。
6.根据权利要求5所述的获取聊天回复内容的方法,其特征在于,在所述场景信息项集中获取与所述分词文本关联的场景信息项,得到关联场景信息项包括:
根据所述关联映射关系表在所述场景信息项集中获得与所述分词文本关联的场景信息项,得到关联场景信息项。
7.根据权利要求1-6任一所述的获取聊天回复内容的方法,其特征在于,所述场景信息项包括:
姓名、性别、年龄、即时通讯账号、电子邮箱地址、家庭地址、职业类别、职务、工作单位、单位地址、银行账号、好友印象、兴趣爱好、朋友圈状态、心情、最近关注话题、当前通讯状态、时间、节日、季节、地理位置信息、距离信息、通讯频率、通讯次数、通讯时长、发起历史通讯的选择方式,其中,所述选择方式包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式以及从拨号盘发起通讯方式。
CN201510742339.3A 2015-11-04 2015-11-04 一种获取聊天回复内容的方法及装置 Active CN106649410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510742339.3A CN106649410B (zh) 2015-11-04 2015-11-04 一种获取聊天回复内容的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510742339.3A CN106649410B (zh) 2015-11-04 2015-11-04 一种获取聊天回复内容的方法及装置

Publications (2)

Publication Number Publication Date
CN106649410A CN106649410A (zh) 2017-05-10
CN106649410B true CN106649410B (zh) 2020-05-01

Family

ID=58851313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510742339.3A Active CN106649410B (zh) 2015-11-04 2015-11-04 一种获取聊天回复内容的方法及装置

Country Status (1)

Country Link
CN (1) CN106649410B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109151044B (zh) * 2018-09-06 2021-08-27 广州酷狗计算机科技有限公司 信息推送方法、装置、电子设备及存储介质
CN109193447A (zh) * 2018-10-25 2019-01-11 贵州金能建设工程有限公司 一种电缆维修用具有防水防尘功能的输电装置
CN111324702A (zh) * 2018-12-13 2020-06-23 南京硅基智能科技有限公司 人机对话方法及模拟人声进行人机对话的耳麦
CN111324703A (zh) * 2018-12-13 2020-06-23 南京硅基智能科技有限公司 人机对话方法及模拟人声进行人机对话的玩偶
CN109857849A (zh) * 2019-01-18 2019-06-07 三角兽(北京)科技有限公司 回复方法、回复装置、信息处理装置及存储介质
CN110674256B (zh) * 2019-09-25 2023-05-12 携程计算机技术(上海)有限公司 Ota酒店的点评与回复的相关度的检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101018137A (zh) * 2006-02-11 2007-08-15 腾讯科技(深圳)有限公司 一种向即时通信用户界面推送聊天场景的方法
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN103390047A (zh) * 2013-07-18 2013-11-13 天格科技(杭州)有限公司 聊天机器人知识库及其构建方法
US9037568B1 (en) * 2013-03-15 2015-05-19 Google Inc. Factual query pattern learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101018137A (zh) * 2006-02-11 2007-08-15 腾讯科技(深圳)有限公司 一种向即时通信用户界面推送聊天场景的方法
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
US9037568B1 (en) * 2013-03-15 2015-05-19 Google Inc. Factual query pattern learning
CN103390047A (zh) * 2013-07-18 2013-11-13 天格科技(杭州)有限公司 聊天机器人知识库及其构建方法

Also Published As

Publication number Publication date
CN106649410A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106649410B (zh) 一种获取聊天回复内容的方法及装置
CN106649404B (zh) 一种会话场景数据库的创建方法及装置
CN107943998B (zh) 一种基于知识图谱的人机对话控制系统及方法
CN108345690B (zh) 智能问答方法与系统
CN106649704B (zh) 一种智能对话控制方法和系统
WO2017076205A1 (zh) 一种获取聊天发起句的回复提示内容的方法及装置
CN104598445B (zh) 自动问答系统和方法
CN101075435B (zh) 一种智能聊天系统及其实现方法
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
CN108595696A (zh) 一种基于云平台的人机交互智能问答方法和系统
CN101071418B (zh) 聊天方法与系统
CN105808695A (zh) 一种获取聊天回复内容的方法及装置
CN110209810B (zh) 相似文本识别方法以及装置
EP3822814A2 (en) Human-machine interaction method and apparatus based on neural network
CN102929861A (zh) 一种文本情感指数计算方法和系统
CN103268313A (zh) 一种自然语言的语义解析方法及装置
CN102968987A (zh) 一种语音识别方法及系统
WO2015021937A1 (zh) 用户推荐方法和装置
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质
CN110019729B (zh) 智能问答方法及存储介质、终端
CN109635080A (zh) 应答策略生成方法及装置
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN104702759A (zh) 通讯录的设置方法及装置
CN105100353A (zh) 一种对移动终端的新增联系人进行通讯录分组的方法
CN103853746A (zh) 词库生成方法及其系统、输入法及输入系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant