CN107015968A - 一种基于共享语料库主动发起会话的方法 - Google Patents
一种基于共享语料库主动发起会话的方法 Download PDFInfo
- Publication number
- CN107015968A CN107015968A CN201710286459.6A CN201710286459A CN107015968A CN 107015968 A CN107015968 A CN 107015968A CN 201710286459 A CN201710286459 A CN 201710286459A CN 107015968 A CN107015968 A CN 107015968A
- Authority
- CN
- China
- Prior art keywords
- sentence
- session
- type
- initiation
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供的基于共享语料库主动发起会话的方法,通过建立与通讯方对应的个人语料库,将多个通讯方的个人语料库进行合并,获得共享语料库,根据预设的会话场景标签,采集当前与会话场景标签对应的会话场景标签值,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的通讯联系人,根据会话场景标签值,在共享语料库中匹配获得主动会话内容以及将主动会话内容发送至通讯联系人,解决了现有通讯方向通讯对方发起会话时,不仅需要通讯方手动获取通讯联系人,而且还需通讯方人工构思创建主动会话内容,费时费力且效率低的技术问题,实现了根据会话场景标签值自动匹配获得通讯联系人以及根据会话场景标签值智能匹配获取主动会话内容。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种基于共享语料库主动发起会话的方法。
背景技术
随着通信技术的日益进步,人际沟通联络更加依赖网络和电信通讯。现有通讯双方建立通讯的过程,往往需要先获取通讯联系人,然后再基于获取的通讯联系人进行通讯。
上述过程不仅需要通讯方手动查找通讯录或通讯记录获得通讯联系人,而且还需通讯方人工构思创建主动会话内容,费时费力且效率低。由于日常会话中,主动会话内容往往可以共享,例如企业员工与客户开展商务会话的场景中,销售经理张三针对潜在客户进行销售的主动会话内容,可以共享给销售经理李四乃至其他同事,基于此,本发明提出了一种基于共享语料库主动发起会话的方法。
发明内容
本发明提供了一种基于共享语料库主动发起会话的方法,以解决现有通讯方向通讯对方发起会话时,不仅需要通讯方手动获取通讯联系人,而且还需通讯方人工构思创建主动会话内容,费时费力且效率低的技术问题。
本发明提供的基于共享语料库主动发起会话的方法,包括:
建立与通讯方对应的个人语料库,其中,通讯方的数目大于一;
将多个通讯方的个人语料库进行合并,获得共享语料库;
根据预设的会话场景标签,采集获得当前与会话场景标签对应的会话场景标签值;
根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的通讯联系人;
根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的主动会话内容;
将主动会话内容发送至通讯联系人。
进一步地,建立与通讯方对应的个人语料库包括:
采集通讯方的会话内容;
获取会话内容中的会话对;
获取与会话对对应的历史联系人;
根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值;
将会话对、历史联系人、场景标签值进行匹配组合,从而生成个人专属语料库。
进一步地,获取会话内容中的会话对包括:
根据会话内容中会话句的语义,确定会话内容中的发起句和回复句;
根据预设的类型判断规则,确定发起句和回复句的类型;
根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对;
根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一个会话对。
进一步地,根据会话内容中会话句的语义,确定会话内容中的发起句和回复句包括:
判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句;
若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。
进一步地,根据预设的类型判断规则,确定发起句的类型包括:
判断发起句是否为具有完整独立语义的语句,若是,则判断发起句是否由多个具有完整独立语义的单句组成,若是,则将发起句的类型确定为复句发起句类型,否则为单句发起句类型;若否,则判断发起句是否包含具有完整独立语义的单句,若包含,则将发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;
搜索非标准单句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
搜索非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,若有,则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。
进一步地,根据预设的类型判断规则,确定回复句的类型包括:
判断回复句是否为具有完整独立语义的语句,若是,则判断回复句是否由多个具有完整独立语义的单句组成,若是,则将回复句的类型确定为复句回复句类型,否则为单句回复句类型;若否,则判断回复句是否包含具有完整独立语义的单句,若包含,则将回复句的类型确定为非标准复句回复句类型,若不包含,则为非标准单句回复句类型;
搜索非标准单句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;
搜索非标准复句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;
判断单句、复句、非标准单句、非标准复句以及非标准句群类型的回复句是否有自己的上文和下文连续会话句,若有,则进一步判断回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将回复句的类型衍生扩展为句群回复句类型,否则不进行衍生扩展。
进一步地,根据基础会话对、基础会话对中发起句的类型以及基础会话对中回复句的类型,提取至少一个会话对包括:
将基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句;
将基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句;
根据多种类型的发起句以及多种类型的回复句,组合至少一个语义关联的会话对进行提取。
进一步地,将多个通讯方的个人语料库进行合并,获得共享语料库包括:
将多个通讯方的个人语料库进行组合,获得组合语料库;
将组合语料库中包含相同发起句的会话对进行同类项合并,获得共享语料库。
进一步地,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的通讯联系人包括:
判断是否能在共享语料库中匹配到与会话场景标签值相同或接近的场景标签值,若是,则将共享语料库中与场景标签值对应的历史联系人作为通讯联系人,
否则,根据通讯方的通讯录中的通讯用户的基本信息,获取与会话场景标签值关联的通讯联系人,其中通讯录包括手机通讯录、即时通讯通讯录或电邮通讯录。
进一步地,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的主动会话内容包括:
判断是否能在共享语料库中匹配到与会话场景标签值相同的场景标签值,若是,则将共享语料库中与场景标签值对应的会话对中的发起句作为主动会话内容,
否则,将与会话场景标签值的相似度大于预设相似度阈值的场景标签值对应的会话对中的发起句作为主动会话内容。
本发明具有以下有益效果:
本发明提供的基于共享语料库主动发起会话的方法,通过建立与通讯方对应的个人语料库,将多个通讯方的个人语料库进行合并,获得共享语料库,根据预设的会话场景标签,采集获得当前与会话场景标签对应的会话场景标签值,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的通讯联系人,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的主动会话内容以及将主动会话内容发送至通讯联系人,解决了现有通讯方向通讯对方发起会话时,不仅需要通讯方手动获取通讯联系人,而且还需通讯方人工构思创建主动会话内容,费时费力且效率低的技术问题,不仅实现了根据会话场景标签值在共享语料库中自动匹配获得通讯联系人,而且实现了根据会话场景标签值在共享语料库中智能匹配获取向通讯联系人发起会话的主动会话内容,且获取的主动会话内容充分结合了当前的会话场景标签值,具有较高的智能化和个性化水平。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构建本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构建对本发明的不当限定。在附图中:
图1是本发明优选实施例基于共享语料库主动发起会话的方法流程图;
图2是本发明优选实施例针对的精简实施例的基于共享语料库主动发起会话的方法流程图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
参照图1,本发明的优选实施例提供了一种基于共享语料库主动发起会话的方法,包括:
步骤S101,建立与通讯方对应的个人语料库,其中,通讯方的数目大于一;
步骤S102,将多个通讯方的个人语料库进行合并,获得共享语料库;
步骤S103,根据预设的会话场景标签,采集获得当前与会话场景标签对应的会话场景标签值;
步骤S104,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的通讯联系人;
步骤S105,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的主动会话内容;
步骤S106,将主动会话内容发送至通讯联系人。
本发明实施例提供的基于共享语料库主动发起会话的方法,通过建立与通讯方对应的个人语料库,将多个通讯方的个人语料库进行合并,获得共享语料库,根据预设的会话场景标签,采集获得当前与会话场景标签对应的会话场景标签值,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的通讯联系人,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的主动会话内容以及将主动会话内容发送至通讯联系人,解决了现有通讯方向通讯对方发起会话时,不仅需要通讯方手动获取通讯联系人,而且还需通讯方人工构思创建主动会话内容,费时费力且效率低的技术问题,不仅实现了根据会话场景标签值在共享语料库中自动匹配获得通讯联系人,而且实现了根据会话场景标签值在共享语料库中智能匹配获取向通讯联系人发起会话的主动会话内容,且获取的主动会话内容充分结合了当前的会话场景标签值,具有较高的智能化和个性化水平。
需要说明的是,由于本实施例是通过合并多个通讯方的个人语料库获得共享语料库,故在建立与通讯方对应的个人语料库时,通讯方的数目需大于一,也即需创建至少两个通讯方的个人语料库。此外,本方案中的通讯方并不限于通讯过程中的通讯发起人,例如通讯方还可以是其他任意可以主动发起会话的发起端,例如人机会话系统中的机器人,且当通讯方是人机会话系统中的机器人时,其对通讯联系人主动发起会话的过程和方法与当通讯方是通讯发起人时相同,故不再细述。
可选地,建立与通讯方对应的个人语料库包括:
采集通讯方的会话内容;
获取会话内容中的会话对;
获取与会话对对应的历史联系人;
根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值;
将会话对、历史联系人、场景标签值进行匹配组合,从而生成个人语料库。
本发明实施例通过采集通讯方的会话内容,获取会话内容中的会话对,获取与会话对对应的历史联系人,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值以及将会话对、历史联系人以及场景标签值进行匹配组合,从而生成个人语料库,不仅大大减少了人工建立会话语料库的工作量,而且根据通讯方的会话内容提取的会话对和与之对应的历史联系人、场景标签值生成的个人语料库具有个人专属性和较强的针对性,从而使得根据会话场景标签值,不仅能在个人语料库中匹配获得通讯联系人,而且还能匹配获得智能化程度高且与通讯方息息相关的主动会话内容,实用价值高。
此外,本发明实施例直接根据会话对、历史联系人以及场景标签值生成个人语料库,完全模拟真实会话场景建立个人语料库,使得建立的个人语料库更精准和实用,从而为基于个人语料库匹配获得通讯联系人和主动会话内容奠定数据基础。
需要说明的是,本发明实施例将会话对、历史联系人以及场景标签值进行匹配组合生成个人语料库,也即按照“会话对+历史联系人+场景标签值”的内容匹配组合规则,生成个人语料库。此外,由于不同的会话内容具有不同的历史联系人和场景特性,故本实施例获取会话内容中的会话对后,进一步获取与会话对对应的历史联系人以及根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值,并将会话对、历史联系人以及场景标签值进行匹配组合,从而生成个人语料库。
由于对于场景标签组合中的一些场景标签(例如会话时间、会话地点等),系统可以对其进行直接采集,而对于另外一些场景标签(例如会话内容主题、会话双方关系等),系统无法对其进行直接采集,故本实施例将场景标签分为第一场景标签和第二场景标签,其中第一场景标签为能对其进行直接采集的场景标签,例如时间、地点场景标签,第二场景标签为不能对其进行直接采集的场景标签,例如会话内容主题、会话双方关系场景标签等等。
且本实施例针对第二场景标签,可以通过搜索或匹配获得第二会话场景标签值;根据所述第一会话场景标签值推理获得第二会话场景标签值;通过对会话内容进行语义推理获得第二会话场景标签值;通过获取与会话内容关联的关联词获得第二会话场景标签值;根据已训练好的分类器分类获得第二会话场景标签值;通过已获得的第二会话场景标签进一步多层次推理计算获得新的第二会话场景标签;或根据上述方法的任意组合获得第二场景标签值。
例如针对地点场景标签值,可以通过移动终端的GPS自动采集获得;针对通讯双方关系场景标签值,可以通过第一场景标签值推理获得;针对会话意图采集标签值,可以通过计算与会话内容关联的词向量获得;针对心情场景标签值,可以通过将会话内容和/或第一会话场景标签值输入分类器,并根据分类器的输出结果,获得心情场景标签值。由此可见,本实施例针对不能直接进行采集的场景标签,能实现对其进行自动获取,体现了较高的智能化程度。
可选地,获取会话内容中的会话对包括:
根据会话内容中会话句的语义,确定会话内容中的发起句和回复句;
根据预设的类型判断规则,确定发起句和回复句的类型;
根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对;
根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一个会话对。
现有从会话内容中提取的会话对或问答对,往往是一问一答的会话对形式,而在实际的会话过程中,通讯双方进行会话并非完全符合一问一答的会话模式,例如针对通讯对方发送的会话句,通讯方可能回复了几条会话句,或针对通讯对方发送的多条会话句,通讯方可能只回复了一条会话句。
故如果仅仅采取一问一答的形式提取对话对,可能存在以下问题:
(1)对于一些没有以一问一答形式展现的会话内容,从会话内容中提取会话对的难度较大,且精度较低。例如对于多个发起句+多个回复句形式的会话内容,从中提取会话对时,需要分析与每一个发起句匹配的回复句,过程复杂,难度大,且精度较低。
(2)由于现有根据会话内容提取的问答对或会话对一般都是比较标准的会话句,或结构比较简单的会话句,这将导致针对一些复杂或非标准结构的会话句不能精准提取完整性好和实用性高的会话对,从而影响通过共享语料库匹配获得的主动会话内容的精准性和实用性。
(3)此外,由于以一问一答形式提取的会话对的完整性容易被破坏,这将导致提取的会话对不能准确模拟真实会话,从而导致通过共享语料库匹配获得的主动会话内容不能准确模拟真实会话。
针对上述问题,本实施例通过根据会话内容中会话句的语义,确定会话内容中的发起句和回复句,根据预设的类型判断规则,确定发起句和回复句的类型,根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对,以及根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一个会话对,解决了现有技术提取会话对的难度较大、精度较低的技术问题,打破了传统的一问一答的会话对形式的局限性,并且根据发起句和回复句的类型,不仅能快速有效地提取会话对,而且提取的会话对的精度和准确度也大大提升,从而提高了通过共享语料库匹配获得的主动会话内容的精准度。
此外,针对一些复杂或非标准结构的会话句,本发明实施例能精准提取完整性好和实用性高的会话对,从而使得通过共享语料库匹配获得的主动会话内容能准确模拟真实会话,智能化程度较高。进一步地,本发明实施例提取的会话对形式多样,有利于基于会话对精准匹配主动会话内容,以及匹配获得形式多样的主动会话内容,实用性较高。
需要说明的是,本实施例在确定发起句和回复句的类型之前,首先预设发起句和回复句的类型以及与类型对应的类型判断规则,从而根据预设的类型判断规则,可以快速确定发起句和回复句的类型。且本实施例中的发起句具体是指无通讯对方发送上文的会话句或与通讯对方发送的上文无语义关联的会话句。
本实施例可以通过采集通讯方的即时通讯账号、邮箱账号、手机号的会话内容获得通讯方的会话内容,其中会话内容为文本、图片、语音、视频或动漫格式,且当会话内容是语音、图片、视频或动漫格式时,还包括将语音、图片、视频或动漫格式的会话内容转换为文本格式的会话内容。
可选地,根据会话内容中会话句的语义,确定会话内容中的发起句和回复句包括:
判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句;
若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。
为了精准提取会话内容中的会话对,本实施例首先根据会话内容中会话句的语义,确定会话内容中的发起句和回复句,然后再进一步确定发起句和回复句的类型,从而根据发起句和回复句的类型精准提取会话对。其中,本实施例所指的根据会话内容中会话句的语义,确定会话内容中的发起句和回复句的具体过程为:判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句,若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。
在实际的会话过程中,如果当前会话句在预设时间区间内无通讯对方发送的上文,一般将其认为是发起会话的起始句,也即发起句。例如假设当前会话句为12月3日发送的会话句,上一条会话句是通讯对方于12月1日发送的会话句,假设预设的时间区间为1天,则通过判断可知,当前会话句在预设时间区间内无通讯对方发送的上文,则将当前会话句认为是发起会话的起始句,也即将当前会话句判定为发起句。且本实施例预设的时间区间具体由用户自定义,例如可以是1小时、半天、一天、一个月等等,也即当判断出当前会话句在1小时、半天、一天、一个月内无通讯对方发送的上文,则判定当前会话句为发起句。
此外,当会话句有通讯对方发送的上文时,根据实际会话内容可判断,会话句可能是回复通讯对方发送的上文的回复句;也可能不是回复通讯对方发送的上文,而是重新发起会话的发起句;或者同时是回复通讯对方发送的上文的回复句和重新发起会话的发起句。针对这种情况,本实施例通过判断会话句是否与通讯对方发送的上文无语义关联来确定会话句的类型。需要说明的是,本实施例中会话句是否与通讯对方发送的上文无语义关联,具体是指会话句是否包括与通讯对方发送的上文无语义关联的语句。
例如,当会话句有通讯对方发送的上文,且通讯对方A发送的上文为“最近怎么样?”,则针对第一种情况的会话句(通讯方B:“挺好的”),可判断出该会话句不包括与通讯对方发送的上文无语义关联的语句,此时确定该会话句为回复句;针对第二种情况的会话句(通讯方B:“帮我缴电话费了吗?”),可判断出该会话句包括与通讯对方发送的上文无语义关联的语句,此时确定该会话句为发起句;针对第三种情况的会话句(通讯方B:“挺好的,帮我缴电话费了吗?”),可判断出该会话句同样包括与通讯对方发送的上文无语义关联的语句(“帮我缴电话费了吗?”),此时确定该会话句为发起句。
本实施例通过判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文以及在有通讯对方发送的上文时判断会话句是否与通讯对方发送的上文无语义关联,可以精准确定会话内容中的发起句和回复句,为后续根据精准确定的发起句和回复句提取会话对,以及基于提取的会话对创建的共享语料库匹配获得精准度高的主动会话内容奠定基础。
可选地,根据预设的类型判断规则,确定发起句的类型包括:
判断发起句是否为具有完整独立语义的语句,若是,则判断发起句是否由多个具有完整独立语义的单句组成,若是,则将发起句的类型确定为复句发起句类型,否则为单句发起句类型;若否,则判断发起句是否包含具有完整独立语义的单句,若包含,则将发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;
搜索非标准单句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
搜索非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,若有,则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。
在实际的实施过程中,发起句可能以多种类型进行呈现,例如单句、复句、非标准句等等,且不同类型的发起句可能会影响或导致提取的会话对不同。针对该问题,本实施例按照预设的类型判断规则,确定发起句的类型。具体地,首先在发起句具有完整独立语义的前提下,通过判断发起句是由一个还是多个完整独立语义的单句组成,确定发起句为单句还是复句发起句类型,以及在发起句不具有完整独立语义的前提下,通过判断发起句是否包含具有完整独立语义的单句来确定发起句的类型为非标准复句还是非标准单句发起句类型;然后通过搜索非标准单句和非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,以及是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,确定是否将发起句的类型衍生扩展为非标准句群发起句类型;最后通过判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,确定发起句的类型是否可以衍生扩展为句群发起句类型。
具体地,本实施例确定发起句类型的过程本质上分为三个判别过程,即第一个判别过程是对每一条发起句按照四种发起句类型(单句、复句、非标准单句以及非标准复句)进行逐一判别;第二个判别过程是在进行完第一个判别过程后,接着判别非标准单句和非标准复句发起句类型的发起句是否可进一步衍生扩展为非标准句群发起句类型;第三个判别过程是在进行完第二个判别过程后,接着判别单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否可进一步衍生扩展为句群发起句类型。
本实施例通过确定发起句的类型,一方面有利于对发起句进行句子结构和成分的深度分析,另一方面,基于对发起句进行类型判断和结构分析,有利于更精准提取实用性高且形式多样的会话对,为后续基于提取的会话对创建的共享语料库匹配获得精准度高的主动会话内容奠定基础。需要说明的是,本实施例中发起句是否有自己的上文和下文连续会话句具体是指发起句是否有发送发起句的发送方发送的上文和下文连续会话句。
可选地,根据预设的类型判断规则,确定回复句的类型包括:
判断回复句是否为具有完整独立语义的语句,若是,则判断回复句是否由多个具有完整独立语义的单句组成,若是,则将回复句的类型确定为复句回复句类型,否则为单句回复句类型;若否,则判断回复句是否包含具有完整独立语义的单句,若包含,则将回复句的类型确定为非标准复句回复句类型,若不包含,则为非标准单句回复句类型;
搜索非标准单句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;
搜索非标准复句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;
判断单句、复句、非标准单句、非标准复句以及非标准句群类型的回复句是否有自己的上文和下文连续会话句,若有,则进一步判断回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将回复句的类型衍生扩展为句群回复句类型,否则不进行衍生扩展。
本实施例判断回复句的类型和判断发起句的类型的原理和过程基本相同,故不再详述。且本实施例通过确定回复句的类型,一方面有利于对回复句进行句子结构和成分的深度分析,另一方面,基于对回复句进行类型判断和结构分析,有利于更精准提取实用性高且形式多样的会话对,为后续基于提取的会话对创建的共享语料库匹配获得精准度高的主动会话内容奠定基础。需要说明的是,本实施例中回复句是否有自己的上文和下文连续会话句具体是指回复句是否有发送所述回复句的发送方发送的上文和下文连续会话句。
可选地,根据基础会话对、基础会话对中发起句的类型以及基础会话对中回复句的类型,提取至少一个会话对包括:
将基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句;
将基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句;
根据多种类型的发起句以及多种类型的回复句,组合至少一个语义关联的会话对进行提取。
由于本实施例中发起句和回复句的类型包括多种,例如单句、复句、非标准单句、非标准复句,非标准句群、句群发起句类型,以及单句、复句、非标准单句、非标准复句、非标准句群、句群回复句类型,故在提取到基础会话对后,为了更精准提取实用性高且形式多样的会话对,本实施例首先将基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句,然后将基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句,最后根据多种类型的发起句以及多种类型的回复句,组合至少一个语义关联的会话对进行提取,从而可以组合获得多个会话对。
例如假设发起句类型为复句发起句类型,回复句为复句回复句类型,则通过类型衍生扩展后,可以提取出单句发起句+单句回复句,复句发起句+单句回复句,单句发起句+复句回复句,复句发起句+复句回复句等多种形式的会话对。
可选地,将多个通讯方的个人语料库进行合并,获得共享语料库包括:
将多个通讯方的个人语料库进行组合,获得组合语料库;
将组合语料库中包含相同发起句的会话对进行同类项合并,获得共享语料库。
由于本实施例创建的通讯方的个人语料库都是由会话对组成的,也即由会话发起句和与之对应的会话回复句组成。故本实施例在将多个通讯方的个人语料库进行合并,获得共享语料库时,首先将多个通讯方的个人语料库进行组合,获得组合语料库,然后将组合语料库中包含相同发起句的会话对进行同类项合并,获得共享语料库。
需要说明的是,本实施例将组合语料库中包含相同发起句的会话对进行同类项合并,即将包含相同发起句的会话对中的答复句合并。例如假设通讯方A的个人语料库包含会话对{发起句:最近怎么样?/回复句:挺好的},通讯方B的个人语料库包含会话对{发起句:最近怎么样?/回复句:老样子},则在将两个个人语料库组合后,将组合语料库中包含相同发起句的会话对进行同类项合并,也即可将上述两个个人语料库包含相同发起句(“最近怎么样?”)的会话对,合并为{发起句:最近怎么样?/回复句1:挺好的;回复句2:老样子}。
本实施例通过将组合语料库中包含相同发起句的会话对进行同类项合并,可以获得精简的共享语料库,有利于后续根据共享语料库快速匹配获得主动会话内容。
可选地,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的通讯联系人包括:
判断是否能在共享语料库中匹配到与会话场景标签值相同或接近的场景标签值,若是,则将共享语料库中与场景标签值对应的历史联系人作为通讯联系人,
否则,根据通讯方的通讯录中的通讯用户的基本信息,获取与会话场景标签值关联的通讯联系人,其中通讯录包括手机通讯录、即时通讯通讯录或电邮通讯录。
由于本实施例中的共享语料库是根据通讯方的历史会话内容创建的,故在实际的实施过程中,可能无法在共享语料库中匹配到与会话场景标签值相同或接近的场景标签值,从而无法在共享语料库中匹配获取到通讯联系人。需要说明的是,本实施例所指的与会话场景标签值接近的场景标签值,具体是指与会话场景标签值的相似度大于或等于接近阈值的场景标签值,且本实施例的接近阈值由用户自定义。
针对该问题,本实施例通过判断是否能在共享语料库中匹配到与会话场景标签值相同或接近的场景标签值,判断是否能在共享语料库中匹配获取到通讯联系人,并在不能在共享语料库中匹配到通讯联系人时,根据通讯方的通讯录中的通讯用户的基本信息,获取与会话场景标签值关联的通讯联系人。
由此可见,本实施例在共享语料库中无法匹配到通讯联系人时,通过根据通讯方的通讯录中的通讯用户的基本信息,获取与会话场景标签值关联的通讯联系人,从而更全面地自动匹配通讯联系人,实用性和智能化程度高。
具体地,本实施例根据通讯方的通讯录中的通讯用户的基本信息,获取与会话场景标签值关联的通讯联系人,主要通过计算会话场景标签值与通讯用户的基本信息之间的关联度获得。具体地,首先将会话场景标签值转换为第一词向量,然后获取通讯用户的基本信息,并将基本信息转换为第二词向量,最后获取与第一词向量最相似的第二词向量,并将与第一词向量最相似的第二词向量对应的通讯用户,作为与会话场景标签值关联的通讯联系人。
可选地,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的主动会话内容包括:
判断是否能在共享语料库中匹配到与会话场景标签值相同的场景标签值,若是,则将共享语料库中与场景标签值对应的会话对中的发起句作为主动会话内容,
否则,将与会话场景标签值的相似度大于预设相似度阈值的场景标签值对应的会话对中的发起句作为主动会话内容。
由于本实施例中的共享语料库是根据通讯方的历史会话内容创建的,故在实际的实施过程中,可能无法在共享语料库中匹配到与会话场景标签值相同的场景标签值,从而无法在共享语料库中匹配获取到主动会话内容。
针对该问题,本实施例通过判断是否能在共享语料库中匹配到与会话场景标签值相同的场景标签值,判断是否能在共享语料库中匹配获取到主动会话内容,并在不能在共享语料库中匹配获取到主动会话内容时,将与与会话场景标签值的相似度大于预设相似度阈值的场景标签值对应的会话对中的发起句作为主动会话内容。需要说明的是,本实施例的预设相似度阈值由用户自定义。
可选地,场景标签包括:第一场景标签和第二场景标签,其中第一场景标签包括:会话通讯双方的时间、地点、日期、天气、季节、体感数据,会话通讯双方会话通讯的间隔时间、频率、时间跨度场景标签中的一种或多种组合;
第二场景标签包括:会话内容主题,会话通讯双方的会话意图、性别、职业、职务、心情、兴趣爱好、健康状况、实时行为状态,会话内容的句型、句类、句式结构类型,以及总量场景标签中的一种或多种组合。
需要说明的是,本实施例采集与会话意图场景标签对应的场景标签值时,可以通过预先建立的用于识别通讯方和/或通讯对方的会话意图的会话意图识别模型实现。具体地,首先训练好与会话对样本对应的会话意图识别模型,然后根据训练好的会话意图识别模型识别通讯方和/或通讯对方针对会话对的会话意图。
下面针对一个精简实施例对本发明的基于共享语料库主动发起会话的方法进行更进一步说明。
参照图2,本发明的精简实施例提供的基于共享语料库主动发起会话的方法,包括:
步骤S201,建立与通讯方对应的个人语料库,其中,通讯方的数目大于一。
具体地,假设本实施例中的通讯方包括通讯方A1和通讯方A2,由于针对不同的通讯方建立个人语料库的方法和过程相同,故本实施例仅对其中的一个通讯方,例如通讯方A1建立个人语料库进行具体说明。具体地,本实施例针对通讯方A1建立个人语料库的方法包括:
步骤S2001,采集通讯方的会话内容。
具体地,假设本实施例采集的会话内容为通讯方A1的即时通讯账号、邮箱账号、手机号与通讯对方B进行会话的会话内容,其中,会话内容为文本、图片、语音、视频或动漫格式,且当会话内容是语音、图片、视频或动漫格式时,还包括将语音、图片、视频或动漫格式的会话内容转换为文本格式的会话内容。为了详细描述本实施例从会话内容中提取会话对的过程,本实施例以简单的通讯方A1与通讯对方B的会话内容进行说明,具体如下:
A1:吃了吗?
B:吃了。
B:你呢?
A1:帮我缴
A1:费了吗?
B:缴了总共100元。
B:排队的人可真多。
步骤S2002,判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句;
若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。
具体地,根据上述判断规则,可以确定会话内容中的发起句和回复句,假设本实施例通过判断获得会话内容中的发起句和回复句具体见表1。
表1
步骤S2003,判断发起句是否为具有完整独立语义的语句,若是,则判断发起句是否由多个具有完整独立语义的单句组成,若是,则将发起句的类型确定为复句发起句类型,否则为单句发起句类型,若否,则判断发起句是否包含具有完整独立语义的单句,若包含,则将发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;
搜索非标准单句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
搜索非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,若有,则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将已确定类型的发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。
具体地,假设本实施例首先根据步骤S2003中的第一个判别过程,判断出发起句的类型如下,具体见表2所示。
表2
序号 | 发起句 | 类型 |
第一条发起句 | 吃了吗? | 单句 |
第二条发起句 | 你呢? | 单句 |
第三条发起句 | 帮我缴 | 非标准单句 |
第四条发起句 | 费了吗? | 非标准单句 |
然后,根据步骤S2003中的第二个判别过程,即通过判断非标准单句和非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,以及是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,确定是否将非标准单句和非标准复句发起句的类型衍生扩展为非标准句群发起句类型。通过具体判断可知,本实施例的第三条和第四条发起句可以合并成具有完整独立语义的语句,也即此时可以将第三条和第四条发起句的类型衍生扩展为非标准句群发起句类型,具体见表3所示。
表3
最后,根据步骤S2003中的第三个判别过程,判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否可进一步衍生扩展为句群发起句类型。
具体地,根据表3可知,本实施例不能将发起句进一步合并成语义关联的句群,也即在最后一个过程,不对发起句进一步进行衍生扩展。故最终获得发起句的类型如表3所示。
步骤S2004,根据预设的类型判断规则,确定回复句的类型。
本实施例确定回复句的类型的原理和过程和确定发起句的类型的原理和过程基本相同,故不再详述,假设本实施例判断出回复句的类型具体如表4所示。
表4
步骤S2005,根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对。
具体地,本实施例针对第一条发起句提取会话对时,首先判断第一条发起句与下一条发起句之间是否有回复句,若有,则根据所述发起句和所述回复句提取基础会话对,由于第一条和第二条发起句之间有回复句,则根据第一条发起句和回复句提取基础会话对。需要说明的是,本实施例在确定发起句与下一条发起句之间包含回复句后,还需计算发起句与回复句是否语义关联,且只有在语义关联的情况下,才提取基础会话对,否则不提取。本实施例假设第一条发起句和第一条回复句语义关联,则可以提取出基础会话对,假设为基础会话对1,基础会话对1的具体内容如表5所示。
同理,本实施例针对第二条发起句提取基础会话对时,首先判断第二条发起句与第三条发起句之间是否有回复句,通过判断可知,第二条和第三条发起句之间不包含回复句,则放弃第二条发起句作为发起句。同样地,根据第三条和第四条发起句,假设可以提取语义关联的基础会话对2,基础会话对2的具体内容如表5所示。
表5
步骤S2006,将基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句。
具体地,由于本实施例中发起句的类型共有六种,分别为单句、复句、非标准单句、非标准复句、非标准句群以及句群发起句类型,故本实施例首先根据基础会话对中发起句的类型进行衍生扩展,由于本实施例中基础会话对1中的发起句的类型为单句发起句类型,其无法进一步衍生扩展成其他五种发起句类型,故此时只包含一种类型的发起句,即单句发起句类型的发起句,具体如表6所示。而根据基础会话对2中的发起句的类型,可以进一步衍生扩展成其他类型的发起句,例如单句发起句类型,具体如表6所示。
表6
步骤S2007,将基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句。
具体地,由于本实施例中回复句的类型共有六种,分别为单句、复句、非标准单句、非标准复句、非标准句群以及句群回复句类型。故本实施例首先根据基础会话对中回复句的类型进行衍生扩展,由于本实施例中基础会话对1中的回复句的类型为单句回复句类型,其无法进一步衍生扩展成其他五种回复句类型,故此时只包含一种类型的回复句,即单句回复句类型的回复句,具体如表7所示。而根据基础会话对2中的回复句的类型,可以进一步衍生扩展成其他类型的回复句,例如复句回复句类型,具体如表7所示。
表7
步骤S2008,根据多种类型的发起句以及多种类型的回复句,组合至少一个语义关联的会话对进行提取。
具体地,由于针对基础会话对1,发起句和回复句的类型只有一种,故此时只能提取一个会话对,而针对基础会话对2,由于发起句的类型和复句的类型为多种,故可组合获得多个会话对,具体见表8,表8为根据基础会话对2提取的6个会话对。
表8
步骤S2009,获取与会话对对应的历史联系人。
具体地,根据通讯方A1的会话内容以及提取的会话对,不难获得与每一个会话对对应的历史联系人,本实施例获取的与会话对对应的历史联系人具体见表10所示。
表9
会话对 | 历史联系人 |
基础会话对1 | 通讯对方B |
基础会话对2(会话对1-会话对6) | 通讯对方B |
步骤S2010,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值。
具体地,本实施例在采集与会话对对应的且与预设的场景标签对应的场景标签值时,首先预设场景标签,然后针对每个会话对分别采集与预设的场景标签对应的场景标签值。假设本实施例预设的场景标签包括会话地点、天气、会话通讯双方关系、通讯对象的年龄、职业的多种组合,则可以采集到与每一个会话对对应的场景标签值,具体见表10所示。需要说明的是,本实施例中由于会话对1-会话对6均为基础会话对2的衍生扩展会话对,故与基础会话对2的场景标签对应的场景标签值相同。此外,本实施例针对不同的对话对可以设置不同的场景标签,且设置的场景标签的数目也可以不同。
表10
步骤S2011,将会话对、历史联系人以及场景标签值进行匹配组合,从而生成个人语料库。
具体地,本实施例将会话对、历史联系人以及场景标签值进行匹配组合,从而生成个人专属语料库,也即按照“会话对+历史联系人+场景标签值”的内容组合规则,从而生成通讯方A1的个人语料库。
步骤S202,将多个通讯方的个人语料库进行合并,获得共享语料库。
具体地,本实施例针对通讯方A2建立个人语料库的方法和过程与通讯方A1的方法和过程相同。且本实施例将通讯方A1和通讯方A2的个人语料库进行合并的具体过程为:首先将通讯方A1和通讯方A2的个人语料库进行组合,获得组合语料库,然后将组合语料库中包含相同发起句的会话对进行同类项合并,获得共享语料库。
步骤S203,根据预设的会话场景标签,采集获得当前与会话场景标签对应的会话场景标签值。
具体地,假设本实施例预设的会话场景标签为会话地点、天气、会话通讯双方关系、通讯对象的年龄以及通讯对象的职业,且通过采集获得当前与会话场景标签对应的会话场景标签值具体为:会话地点=公司、天气=晴朗、会话通讯双方关系=上下级、通讯对象的年龄=25、通讯对象的职业=IT工程师。
步骤S204,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的通讯联系人。
具体地,根据步骤S203获得的会话场景标签值,不难在共享语料库中匹配获得与会话场景标签值对应的会话对为基础会话对2,且与基础会话对2对应的历史联系人为通讯联系人B,也即本实施例根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的通讯联系人为通讯联系人B。
步骤S205,根据会话场景标签值,在共享语料库中匹配与会话场景标签值对应的主动会话内容。
具体地,通过根据会话场景标签值,可以在共享语料库中匹配获得与会话场景标签值对应的会话对,具体为基础会话对2,且根据基础会话对2不难获得与会话场景标签值对应的主动会话内容为“帮我缴费了吗?”。
步骤S206,将主动会话内容发送至通讯联系人。
具体地,由于本实施例根据步骤S204匹配获得通讯联系人为通讯联系人B,主动会话内容为“帮我缴费了吗?”,则将主动会话内容(“帮我缴费了吗?!”)发送给通讯联系人B。
本发明实施例提供的基于共享语料库主动发起会话的方法,通过建立与通讯方对应的个人语料库,将多个通讯方的个人语料库进行合并,获得共享语料库,根据预设的会话场景标签,采集获得当前与会话场景标签对应的会话场景标签值,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的通讯联系人,根据会话场景标签值,在共享语料库中匹配获得与会话场景标签值对应的主动会话内容以及将主动会话内容发送至通讯联系人,解决了现有通讯方向通讯对方发起会话时,不仅需要通讯方手动获取通讯联系人,而且还需通讯方人工构思创建主动会话内容,费时费力且效率低的技术问题,不仅实现了根据会话场景标签值在共享语料库中自动匹配获得通讯联系人,而且实现了根据会话场景标签值在共享语料库中智能匹配获取向通讯联系人发起会话的主动会话内容,且获取的主动会话内容充分结合了当前的会话场景标签值,具有较高的智能化和个性化水平。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于共享语料库主动发起会话的方法,其特征在于,包括:
建立与通讯方对应的个人语料库,其中,所述通讯方的数目大于一;
将多个所述通讯方的个人语料库进行合并,获得共享语料库;
根据预设的会话场景标签,采集获得当前与所述会话场景标签对应的会话场景标签值;
根据所述会话场景标签值,在所述共享语料库中匹配获得与所述会话场景标签值对应的通讯联系人;
根据所述会话场景标签值,在所述共享语料库中匹配获得与所述会话场景标签值对应的主动会话内容;
将所述主动会话内容发送至所述通讯联系人。
2.根据权利要求1所述的基于共享语料库主动发起会话的方法,其特征在于,建立与通讯方对应的个人语料库包括:
采集通讯方的会话内容;
获取所述会话内容中的会话对;
获取与所述会话对对应的历史联系人;
根据预设的场景标签,采集获得所述会话对与所述场景标签对应的场景标签值;
将所述会话对、所述历史联系人、所述场景标签值进行匹配组合,从而生成个人专属语料库。
3.根据权利要求2所述的基于共享语料库主动发起会话的方法,其特征在于,获取所述会话内容中的会话对包括:
根据所述会话内容中会话句的语义,确定所述会话内容中的发起句和回复句;
根据预设的类型判断规则,确定所述发起句和所述回复句的类型;
根据所述发起句以及所述发起句与下一条发起句之间的回复句提取基础会话对;
根据所述基础会话对、所述基础会话对中发起句和回复句的类型,提取至少一个会话对。
4.根据权利要求3所述的基于共享语料库主动发起会话的方法,其特征在于,根据所述会话内容中会话句的语义,确定所述会话内容中的发起句和回复句包括:
判断所述会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将所述会话句确定为发起句;
若有,则判断所述会话句是否与所述通讯对方发送的上文无语义关联,若是,则将所述会话句确定为发起句,否则将所述会话句确定为回复句。
5.根据权利要求4所述的基于共享语料库主动发起会话的方法,其特征在于,根据预设的类型判断规则,确定所述发起句的类型包括:
判断所述发起句是否为具有完整独立语义的语句,若是,则判断所述发起句是否由多个具有完整独立语义的单句组成,若是,则将所述发起句的类型确定为复句发起句类型,否则为单句发起句类型;若否,则判断所述发起句是否包含具有完整独立语义的单句,若包含,则将所述发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;
搜索非标准单句发起句类型的所述发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
搜索非标准复句发起句类型的所述发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
判断单句、复句、非标准单句、非标准复句以及非标准句群类型的所述发起句是否有自己的上文和下文连续会话句,若有,则进一步判断所述发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将所述发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。
6.根据权利要求4所述的基于共享语料库主动发起会话的方法,其特征在于,根据预设的类型判断规则,确定所述回复句的类型包括:
判断所述回复句是否为具有完整独立语义的语句,若是,则判断所述回复句是否由多个具有完整独立语义的单句组成,若是,则将所述回复句的类型确定为复句回复句类型,否则为单句回复句类型;若否,则判断所述回复句是否包含具有完整独立语义的单句,若包含,则将所述回复句的类型确定为非标准复句回复句类型,若不包含,则为非标准单句回复句类型;
搜索非标准单句回复句类型的所述回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句回复句类型的所述回复句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句回复句类型的所述回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;
搜索非标准复句回复句类型的所述回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句回复句类型的所述回复句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句回复句类型的所述回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;
判断单句、复句、非标准单句、非标准复句以及非标准句群类型的所述回复句是否有自己的上文和下文连续会话句,若有,则进一步判断所述回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将所述回复句的类型衍生扩展为句群回复句类型,否则不进行衍生扩展。
7.根据权利要求6所述的基于共享语料库主动发起会话的方法,其特征在于,根据基础会话对、所述基础会话对中发起句的类型以及所述基础会话对中回复句的类型,提取至少一个会话对包括:
将所述基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句;
将所述基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句;
根据多种类型的所述发起句以及多种类型的所述回复句,组合至少一个语义关联的会话对进行提取。
8.根据权利要求7所述的基于共享语料库主动发起会话的方法,其特征在于,将多个所述通讯方的个人语料库进行合并,获得共享语料库包括:
将多个所述通讯方的个人语料库进行组合,获得组合语料库;
将所述组合语料库中包含相同发起句的会话对进行同类项合并,获得共享语料库。
9.根据权利要求1-8任一所述的基于共享语料库主动发起会话的方法,其特征在于,根据所述会话场景标签值,在所述共享语料库中匹配获得与所述会话场景标签值对应的通讯联系人包括:
判断是否能在所述共享语料库中匹配到与所述会话场景标签值相同或接近的场景标签值,若是,则将所述共享语料库中与所述场景标签值对应的历史联系人作为通讯联系人,
否则,根据所述通讯方的通讯录中的通讯用户的基本信息,获取与所述会话场景标签值关联的通讯联系人,其中所述通讯录包括手机通讯录、即时通讯通讯录或电邮通讯录。
10.根据权利要求9所述的基于共享语料库主动发起会话的方法,其特征在于,根据所述会话场景标签值,在所述共享语料库中匹配获得与所述会话场景标签值对应的主动会话内容包括:
判断是否能在所述共享语料库中匹配到与所述会话场景标签值相同的场景标签值,若是,则将所述共享语料库中与所述场景标签值对应的会话对中的发起句作为主动会话内容,
否则,将与所述会话场景标签值的相似度大于预设相似度阈值的场景标签值对应的会话对中的发起句作为主动会话内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710286459.6A CN107015968A (zh) | 2017-04-27 | 2017-04-27 | 一种基于共享语料库主动发起会话的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710286459.6A CN107015968A (zh) | 2017-04-27 | 2017-04-27 | 一种基于共享语料库主动发起会话的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107015968A true CN107015968A (zh) | 2017-08-04 |
Family
ID=59447293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710286459.6A Pending CN107015968A (zh) | 2017-04-27 | 2017-04-27 | 一种基于共享语料库主动发起会话的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107015968A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018145436A1 (zh) * | 2017-02-13 | 2018-08-16 | 长沙军鸽软件有限公司 | 一种从会话内容中提取会话对的方法 |
CN112787899A (zh) * | 2021-01-08 | 2021-05-11 | 青岛海尔特种电冰箱有限公司 | 设备语音交互方法、计算机可读存储介质以及冰箱 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390047A (zh) * | 2013-07-18 | 2013-11-13 | 天格科技(杭州)有限公司 | 聊天机器人知识库及其构建方法 |
CN105389296A (zh) * | 2015-12-11 | 2016-03-09 | 小米科技有限责任公司 | 信息分割方法及装置 |
-
2017
- 2017-04-27 CN CN201710286459.6A patent/CN107015968A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390047A (zh) * | 2013-07-18 | 2013-11-13 | 天格科技(杭州)有限公司 | 聊天机器人知识库及其构建方法 |
CN105389296A (zh) * | 2015-12-11 | 2016-03-09 | 小米科技有限责任公司 | 信息分割方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018145436A1 (zh) * | 2017-02-13 | 2018-08-16 | 长沙军鸽软件有限公司 | 一种从会话内容中提取会话对的方法 |
CN112787899A (zh) * | 2021-01-08 | 2021-05-11 | 青岛海尔特种电冰箱有限公司 | 设备语音交互方法、计算机可读存储介质以及冰箱 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104834695B (zh) | 基于用户兴趣度和地理位置的活动推荐方法 | |
CN106294854A (zh) | 一种用于智能机器人的人机交互方法及装置 | |
CN105931638A (zh) | 面向智能机器人的对话系统数据处理方法及装置 | |
CN106934068A (zh) | 机器人基于环境上下文的语义理解的方法 | |
CN106709072A (zh) | 一种基于共享语料库获得智能会话回复内容的方法 | |
CN106020488A (zh) | 一种面向对话系统的人机交互方法及装置 | |
CN106683678A (zh) | 一种人工电话客服辅助系统及方法 | |
CN107103083A (zh) | 一种机器人实现智能会话的方法 | |
CN106874452A (zh) | 一种获取会话回复内容的方法 | |
de Vries et al. | Antecedents of Ethnic Minority Entrepreneurship in N ew Z ealand: An Intergroup Comparison | |
CN106656732A (zh) | 一种基于场景信息获取聊天回复内容的方法及装置 | |
CN108257594A (zh) | 一种会议系统及其信息处理方法 | |
CN106649404A (zh) | 一种会话场景数据库的创建方法及装置 | |
JP6853752B2 (ja) | 対話シナリオコーパスの作成支援システム | |
CN103294725A (zh) | 智能应答机器人软件 | |
CN108376144A (zh) | 基于深度神经网络的场景自动切换的人机多轮对话方法 | |
WO2021135317A1 (zh) | 一种基于订单拨打电话的方法和系统 | |
CN107623621A (zh) | 聊天语料收集方法和装置 | |
CN106649410A (zh) | 一种获取聊天回复内容的方法及装置 | |
CN106874451A (zh) | 一种自动建立个人专属语料库的方法 | |
CN104702759A (zh) | 通讯录的设置方法及装置 | |
CN107015968A (zh) | 一种基于共享语料库主动发起会话的方法 | |
CN106657157B (zh) | 一种从会话内容中提取会话对的方法 | |
CN106844735A (zh) | 一种自动建立个人专属语料库的方法 | |
CN106649280B (zh) | 一种创建共享语料库的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170804 |
|
RJ01 | Rejection of invention patent application after publication |