CN110825847A - 目标人物间亲密度识别方法、装置、电子设备及存储介质 - Google Patents
目标人物间亲密度识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110825847A CN110825847A CN201911056228.1A CN201911056228A CN110825847A CN 110825847 A CN110825847 A CN 110825847A CN 201911056228 A CN201911056228 A CN 201911056228A CN 110825847 A CN110825847 A CN 110825847A
- Authority
- CN
- China
- Prior art keywords
- intimacy
- sentence
- target
- relationship
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种目标人物间亲密度识别方法、装置、电子设备及存储介质,通过获取语料库,利用预设的热词提取方法,从语料库中提取各热词,并获取各热词的亲密度标注信息,针对语料库中多个待分析文本数据的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集,针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系,针对一组指定的至少两个目标人物,根据候选语料集中各条句子分别对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度。通过本方案,提高了识别目标任务之间亲密度的效率。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种目标人物间亲密度识别方法、装置、电子设备及存储介质。
背景技术
随着互联网的不断发展,互联网中的文本数据也迅速增长,互联网用户需要花费大量的时间从中搜索出符合自己阅读需求的文本内容。
当前的互联网技术中,可以基于互联网用户的阅读需求,向互联网用户推荐感兴趣的文本内容,例如,如果互联网用户对人物A感兴趣,则会将与人物A相关的所有文本内容都推荐给该互联网用户。
然而在实际应用时,当互联网用户阅读到某一个目标人物的时候,有可能会关注与该目标人物亲密的另一个目标人物的信息,因此,如何高效地识别不同的目标人物间的亲密度,为文本内容推荐提供推荐依据,成为亟待解决的技术问题。
发明内容
本发明实施例的目的在于提供一种目标人物间亲密度识别方法、装置、电子设备及存储介质,以提高识别目标人物之间的亲密度的效率。具体技术方案如下:
第一方面,本发明实施例提供了一种目标人物间亲密度识别方法,该方法包括:
获取语料库,其中,语料库包括多个待分析文本数据;
利用预设的热词提取方法,从语料库中提取各热词,并获取各热词的亲密度标注信息;
针对多个待分析文本数据中的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集;
针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系;
针对一组指定的至少两个目标人物,根据候选语料集中各条句子对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度。
可选的,在针对多个待分析文本数据中的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集的步骤之前,该方法还包括:
分别将多个待分析文本数据中的各文本数据分割成多条句子,并对分割后的各条句子分别进行分词处理,得到分割后的各条句子中的分词数据;
针对多个待分析文本数据中的各条句子,识别该条句子中是否包括至少两个目标人物的名称的方式,包括:
针对分割后的各条句子,判断该条句子中的分词数据是否包括至少两个目标人物的名称。
可选的,在针对多个待分析文本数据中的各条句子,识别出该条句子中包括至少两个目标人物的名称的步骤之后,该方法还包括:
查询预先建立的目标人物关系表,判断至少两个目标人物间是否存在关系;
将该条句子添加至候选语料集的步骤,包括:
若识别出该条句子中包括至少两个目标人物的名称,且至少两个目标人物间存在关系,则将该条句子添加至候选语料集。
可选的,在利用预设的热词提取方法,从语料库中提取各热词,并获取各热词的亲密度标注信息的步骤之后,该方法还包括:
将各热词及各热词的亲密度标注信息存入热词库;
针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系的步骤,包括:
针对候选语料集中的各条句子,分别执行如下步骤:
识别该条句子中表示目标人物亲密度的各观点词;
分别将各观点词与热词库中的各热词进行匹配,得到各观点词的亲密度;
根据各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系。
可选的,观点词包括表示至少两个目标人物间亲密关系的关系词;
识别该条句子中表示目标人物间关系的各观点词的步骤,包括:
识别该条句子中至少两个目标人物的名称,以及该条句子中表示至少两个目标人物间亲密关系的关系词;
分别将各观点词与热词库中的各热词进行匹配,得到各观点词的亲密度的步骤,包括:
将关系词与热词库中的各热词进行匹配,得到关系词的亲密度;
根据各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系的步骤,包括:
若关系词的亲密度为正向亲密度,则确定该条句子对应的至少两个目标人物的亲密度关系为正向亲密度关系;
若关系词的亲密度为负向亲密度,则确定该条句子对应的至少两个目标人物的亲密度关系为负向亲密度关系。
可选的,观点词还包括表示任一目标人物情感的情感词;
识别该条句子中表示目标人物间关系的各观点词的步骤,包括:
若该条句子中不存在关系词,则识别该条句子中分别表示各目标人物情感的情感词;
分别将各观点词与热词库中的各热词进行匹配,得到各观点词的亲密度的步骤,包括:
分别将各情感词与热词库中的各热词进行匹配,得到各情感词的亲密度;
根据各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系的步骤,包括:
统计亲密度为正向亲密度的情感词第一数目、亲密度为负向亲密度的情感词第二数目;
若情感词第一数目大于情感词第二数目,则确定该条句子对应的至少两个目标人物的亲密度关系为正向亲密度关系;
若情感词第一数目小于情感词第二数目,则确定该条句子对应的至少两个目标人物的亲密度关系为负向亲密度关系;
若情感词第一数目等于情感词第二数目,则确定该条句子对应的至少两个目标人物的亲密度关系为中性亲密度关系。
可选的,针对一组指定的至少两个目标人物,根据候选语料集中各条句子对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度的步骤,包括:
针对一组指定的至少两个目标人物,统计对应的指定的至少两个目标人物的亲密度关系为正向亲密度关系的第一句子数目、对应的指定的至少两个目标人物的亲密度关系为负向亲密度关系的第二句子数目,以及对应的指定的至少两个目标人物的亲密度关系为中性亲密度关系的第三句子数目;
计算第一句子数目与第二句子数目的差值,以及第一句子数目、第二句子数目和第三句子数目的总数目;
计算差值与总数目的比值,并将比值的数值作为指定的至少两个目标人物间的亲密度权重预测值,根据比值的符号,确定指定的至少两个目标人物间的亲密度正负向关系。
可选的,在针对一组指定的至少两个目标人物,根据候选语料集中各条句子对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度的步骤之后,该方法还包括:
获取基于候选语料集的任一组至少两个目标人物间的亲密度权重标注值;
针对任一组至少两个目标人物,根据候选语料集中各条句子分别对应的任一组至少两个目标人物的亲密度关系,计算任一组至少两个目标人物间的亲密度权重预测值;
根据亲密度权重标注值及亲密度权重预测值,统计亲密度权重预测值与亲密度权重标注值的差值绝对值小于或等于预设阈值的目标人物组数目;
根据目标人物组数目以及统计的样本语料集中目标人物总组数,计算亲密度分类准确率。
第二方面,本发明实施例提供了一种目标人物间亲密度识别装置,该装置包括:
获取模块,用于获取语料库,其中,语料库包括多个待分析文本数据;
提取模块,用于利用预设的热词提取方法,从语料库中提取各热词,并获取各热词的亲密度标注信息;
添加模块,用于针对多个待分析文本数据中的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集;
确定模块,用于针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系;针对一组指定的至少两个目标人物,根据候选语料集中各条句子对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度。
可选的,该装置还包括:
分割模块,用于分别将多个待分析文本数据中的各文本数据分割成多条句子,并对分割后的各条句子分别进行分词处理,得到分割后的各条句子中的分词数据;
判断模块,用于针对分割后的各条句子,判断该条句子中的分词数据是否包括至少两个目标人物的名称。
可选的,该装置还包括:
查询模块,用于查询预先建立的目标人物关系表,判断至少两个目标人物间是否存在关系;
添加模块,具体用于:
若识别出该条句子中包括至少两个目标人物的名称,且至少两个目标人物间存在关系,则将该条句子添加至候选语料集。
可选的,该装置还包括:
存储模块,用于将各热词及各热词的亲密度标注信息存入热词库;
确定模块在用于针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系时,具体用于:
针对候选语料集中的各条句子,分别执行如下步骤:
识别该条句子中表示目标人物亲密度的各观点词;
分别将各观点词与热词库中的各热词进行匹配,得到各观点词的亲密度;
根据各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系。
可选的,观点词包括表示至少两个目标人物间亲密关系的关系词;
确定模块在用于识别该条句子中表示目标人物间关系的各观点词时,具体用于:
识别该条句子中至少两个目标人物的名称,以及该条句子中表示至少两个目标人物间亲密关系的关系词;
确定模块在用于分别将各观点词与热词库中的各热词进行匹配,得到各观点词的亲密度时,具体用于:
将关系词与热词库中的各热词进行匹配,得到关系词的亲密度;
确定模块在用于根据各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系时,具体用于:
若关系词的亲密度为正向亲密度,则确定该条句子对应的至少两个目标人物的亲密度关系为正向亲密度关系;
若关系词的亲密度为负向亲密度,则确定该条句子对应的至少两个目标人物的亲密度关系为负向亲密度关系。
可选的,观点词还包括表示任一目标人物情感的情感词;
确定模块在用于识别该条句子中表示目标人物间关系的各观点词时,具体用于:
若该条句子中不存在关系词,则识别该条句子中分别表示各目标人物情感的情感词;
确定模块在用于分别将各观点词与热词库中的各热词进行匹配,得到各观点词的亲密度时,具体用于:
分别将各情感词与热词库中的各热词进行匹配,得到各情感词的亲密度;
确定模块在用于根据各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系时,具体用于:
统计亲密度为正向亲密度的情感词第一数目、亲密度为负向亲密度的情感词第二数目;
若情感词第一数目大于情感词第二数目,则确定该条句子对应的至少两个目标人物的亲密度关系为正向亲密度关系;
若情感词第一数目小于情感词第二数目,则确定该条句子对应的至少两个目标人物的亲密度关系为负向亲密度关系;
若情感词第一数目等于情感词第二数目,则确定该条句子对应的至少两个目标人物的亲密度关系为中性亲密度关系。
可选的,确定模块在用于针对一组指定的至少两个目标人物,根据候选语料集中各条句子对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度时,具体用于:
针对一组指定的至少两个目标人物,统计对应的指定的至少两个目标人物的亲密度关系为正向亲密度关系的第一句子数目、对应的指定的至少两个目标人物的亲密度关系为负向亲密度关系的第二句子数目,以及对应的指定的至少两个目标人物的亲密度关系为中性亲密度关系的第三句子数目;
计算第一句子数目与第二句子数目的差值,以及第一句子数目、第二句子数目和第三句子数目的总数目;
计算差值与总数目的比值,并将比值的数值作为指定的至少两个目标人物间的亲密度权重预测值,根据比值的符号,确定指定的至少两个目标人物间的亲密度正负向关系。
可选的,获取模块,还用于获取基于候选语料集的任一组至少两个目标人物间的亲密度权重标注值;
该装置还包括:
计算模块,用于针对任一组至少两个目标人物,根据候选语料集中各条句子分别对应的任一组至少两个目标人物的亲密度关系,计算任一组至少两个目标人物间的亲密度权重预测值;
统计模块,用于根据亲密度权重标注值及亲密度权重预测值,统计亲密度权重预测值与亲密度权重标注值的差值绝对值小于或等于预设阈值的目标人物组数目;
计算模块,还用于根据目标人物组数目以及统计的样本语料集中目标人物总组数,计算亲密度分类准确率。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的计算机程序时,实现本发明实施例第一方面所提供的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在电子设备上运行时,使得电子设备执行本发明实施例第一方面所提供的方法。
第五方面,本发明实施例提供了一种包含指令的计算机程序产品,当该计算机程序产品在电子设备上运行时,使得电子设备执行本发明实施例第一方面所提供的方法。
本发明实施例提供的一种目标人物间亲密度识别方法、装置、电子设备及存储介质,获取语料库,利用预设的热词提取方法,从语料库中提取各热词,并获取各热词的亲密度标注信息,针对语料库中多个待分析文本数据的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集,针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系,针对一组指定的至少两个目标人物,根据候选语料集中各条句子分别对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度。通过获取语料库,基于语料库构建候选语料集,并且根据语料库中各热词的亲密度标注信息,对候选语料集中的各条句子进行分析,能够确定出候选语料集中各条句子分别对应的至少两个目标人物的亲密度关系,进一步的,针对一组指定的至少两个目标人物,根据候选语料集中各条句子分别对应的指定的至少两个目标人物的亲密度关系,确定出基于语料库的指定的至少两个目标人物间的亲密度,利用候选语料集,可以快速地得到指定的至少两个目标人物间的亲密度,从而提高了识别目标任务之间亲密度的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人物来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例的目标人物间亲密度识别方法的流程示意图;
图2为本发明另一实施例的目标人物间亲密度识别方法的流程示意图;
图3为本发明实施例的目标人物间亲密度识别、验证的流程示意图;
图4为本发明再一实施例的目标人物间亲密度识别方法的流程示意图;
图5为本发明实施例的目标人物间亲密度识别装置的结构示意图;
图6为本发明实施例的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人物在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了实现对不同的目标人物间的亲密度的识别,为文本内容推荐提供推荐依据,本发明实施例提供了一种目标人物间亲密度识别方法、装置、电子设备及存储介质。下面,首先对本发明实施例所提供的目标人物间亲密度识别方法进行介绍。
本发明实施例所提供的一种目标人物间亲密度识别方法,如图1所示,可以包括如下步骤:
S101,获取语料库,其中,语料库包括多个待分析文本数据。
通过抓取程序可以抓取到互联网中的新闻、报道、小说等文章,作为待分析文本数据,多个待分析文本数据组成语料库。
S102,利用预设的热词提取方法,从语料库中提取各热词,并获取各热词的亲密度标注信息。
预设的热词提取方法为一种统计方法,可以通过分析语料库的各文本数据中每个词语的重要程度,统计出重要程度较高的词语作为热词。具体的,热词提取方法可以为TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文本频率指数)方法,TF-IDF方法是一种用于信息检索与数据挖掘的常用加权技术。TF-IDF方法用以评估一词语对于语料库中一个文本数据的重要程度,词语的重要性随着它在文本数据中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文本数据与用户查询之间相关程度的度量或评级。除了TF-IDF以外,搜索引擎还可以使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。
在提取出各热词后,可以获取用户对各热词进行标注的亲密度标注信息,用户对各热词进行分析,基于热词所表达的含义,对热词进行标注,举例说明,对于表达正向情感的热词(例如喜欢、心情愉悦、喜笑颜开等)可以标注为1,对于表达负向情感的热词(例如讨厌、憎恨、心情差等)可以标注为-1,其他热词则可以标注为0。
S103,针对多个待分析文本数据中的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集。
分析语料库中多个待分析文本数据,判断多个待分析文本数据中的各条句子中是否包括至少两个目标人物的名称,如果一条句子中包括一组至少两个目标人物的名称,则说明这条句子可能会表明至少两个目标人物之间的亲密度,因此,可以将这条句子添加至候选语料集。这里所说的句子并不是传统意义上的一个句号前的一句话,可以将传统意义的多句话理解为一条句子,也可以将一段或者多段话理解为一条句子。
S104,针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系。
在统计得到候选语料集后,候选语料集中的各条句子都是目标人物间有亲密度关系的句子,而各热词的标注表明了各热词所表达的含义,即表达了目标人物的情感、亲密关系等,因此,根据句子中各热词的亲密度标注信息,可以确定出候选语料集中每一条句子对应的至少两个目标人物的亲密度关系。
S105,针对一组指定的至少两个目标人物,根据候选语料集中各条句子对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度。
在得到候选语料集中每条句子分别对应的至少两个目标人物的亲密度关系后,针对一组指定的至少两个目标人物,可以根据各条句子分别对应的指定的至少两个目标人物的亲密度关系,确定出这一组指定的至少两个目标人物间的亲密度。例如,候选语料集中总共有100条句子,其中有40条句子对应有目标人物A和目标人物B的亲密度关系,如果这40条句子中有30条对应的目标人物A和目标人物B的亲密度关系为正向亲密度关系,占总条数40条的比例超过预设比例60%,则认为目标人物A和目标人物B之间亲密,且亲密程度可以用权重表示,可以分配0.75;如果这40条句子中只有10条对应的目标人物A和目标人物B的亲密度关系为正向亲密度关系,占总条数40条的比例远小于预设比例60%,则认为目标人物A和目标人物B之间不亲密。
在确定指定的至少两个目标人物间的亲密度之后,可以基于目标人物间的亲密度,向互联网用户推荐某一个目标人物的信息的同时,还向互联网用户推荐与该目标人物亲密的另一个目标人物的信息。
应用本发明实施例,通过获取语料库,利用预设的热词提取方法,从语料库中提取各热词,并获取各热词的亲密度标注信息,针对语料库中多个待分析文本数据的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集,针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系,针对一组指定的至少两个目标人物,根据候选语料集中各条句子分别对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度。通过获取语料库,基于语料库构建候选语料集,并且根据语料库中各热词的亲密度标注信息,对候选语料集中的各条句子进行分析,能够确定出候选语料集中各条句子分别对应的至少两个目标人物的亲密度关系,进一步的,针对一组指定的至少两个目标人物,根据候选语料集中各条句子分别对应的指定的至少两个目标人物的亲密度关系,确定出基于语料库的指定的至少两个目标人物间的亲密度,利用候选语料集,可以快速地得到指定的至少两个目标人物间的亲密度,从而提高了识别目标任务之间亲密度的效率。
S102和S103的执行顺序在这里不做限定,可以并行执行,也可以先执行S102再执行S103,或者先执行S103再执行S102,图1只是给出了一种实现方式。
在确定指定的至少两个目标人物间的亲密度时,除了图1所示实施例中设定预设比例的方式以外,还可以通过比较正向关系的句子数目与负向关系的句子数目的大小来确定。在本发明实施例的一种可实现方式中,S105具体可以通过如下步骤实现:
第一步,针对一组指定的至少两个目标人物,统计对应的指定的至少两个目标人物的亲密度关系为正向亲密度关系的第一句子数目、对应的指定的至少两个目标人物的亲密度关系为负向亲密度关系的第二句子数目,以及对应的指定的至少两个目标人物的亲密度关系为中性亲密度关系的第三句子数目。
第二步,计算第一句子数目与第二句子数目的差值,以及第一句子数目、第二句子数目和第三句子数目的总数目。
第三步,计算差值与总数目的比值,并将比值的数值作为指定的至少两个目标人物间的亲密度权重预测值,根据比值的符号,确定指定的至少两个目标人物间的亲密度正负向关系。
针对一组指定的至少两个目标人物,候选语料集的所有句子中,可能有部分句子对应有指定的至少两个目标人物的亲密度关系,可以通过统计这些句子中亲密度关系为正向亲密度关系的句子数目、亲密度关系为负向亲密度关系的句子数目和亲密度关系为中性亲密度关系的句子数目。如果这些句子中亲密度关系为正向亲密度关系的句子数目大于亲密度关系为负向亲密度关系的句子数目,则可以确定指定的至少两个目标人物间的亲密度关系为正向亲密度关系;如果这些句子中亲密度关系为正向亲密度关系的句子数目小于亲密度关系为负向亲密度关系的句子数目,则可以确定指定的至少两个目标人物间的亲密度关系为负向亲密度关系。具体的,可以利用公式(1)计算出表示指定的至少两个目标人物间的亲密度的信息。
其中,positive表示亲密度关系为正向亲密度关系的句子,negative表示亲密度关系为负向亲密度关系的句子,neutral表示亲密度关系为中性亲密度关系的句子,domain为差值与总数目的比值,比值的数值为指定的至少两个目标人物间的亲密度权重预测值,比值的符号表示指定的至少两个目标人物间的亲密度正负向关系。
以候选语料集中总共有100条句子,其中有40条句子对应有目标人物A和目标人物B的亲密度关系为例,如果这40条句子中有30条对应的目标人物A和目标人物B的亲密度关系为正向亲密度关系,8条对应的目标人物A和目标人物B的亲密度关系为负向亲密度关系,剩下的2条对应的目标人物A和目标人物B的亲密度关系为中性亲密度关系,则第一句子数目为30,第二句子数目为8、第三句子数目为2,第一句子数目与第二句子数目的差值为22,第一句子数目、第二句子数目和第三句子数目的总数目为40,则计算得到的差值与总数目的比值为+0.55,则目标人物A和目标人物B的亲密度权重预测值为0.55,且目标人物A和目标人物B为正向的亲密度关系。
再例如,如果上述40条句子中有10条对应的目标人物A和目标人物B的亲密度关系为正向亲密度关系,25条对应的目标人物A和目标人物B的亲密度关系为负向亲密度关系,剩下的5条对应的目标人物A和目标人物B的亲密度关系为中性亲密度关系,则第一句子数目为10,第二句子数目为25、第三句子数目为5,第一句子数目与第二句子数目的差值为-15,第一句子数目、第二句子数目和第三句子数目的总数目为40,则计算得到的差值与总数目的比值为-0.375,则目标人物A和目标人物B的亲密度权重预测值为0.375,且目标人物A和目标人物B为负向的亲密度关系。
如果差值与总数目的比值为正,则亲密度权重预测值越大,则说明指定的至少两个目标人物之间越亲密;如果差值与总数目的比值为负,则亲密度权重预测值越大,则说明指定的至少两个目标人物之间就越不亲密。
可选的,在本发明实施例的一种可实现方式中,在S103之前,本发明实施例所提供的方法还可以执行:分别将多个待分析文本数据中的各文本数据分割成多条句子,并对分割后的各条句子分别进行分词处理,得到分割后的各条句子中的分词数据。
相应的,针对多个待分析文本数据中的各条句子,识别该条句子中是否包括至少两个目标人物的名称的方式,可以为:针对分割后的各条句子,判断该条句子中的分词数据是否包括至少两个目标人物的名称。
针对语料库中的各待分析文本数据,将每个文本数据分割成句子,对句子进行分词,具体识别句子中是否包括至少两个目标人物的名称的方式,可以是判断分割后的句子中分词数据是否包括至少两个目标人物的名称实现。
可选的,在针对多个待分析文本数据中的各条句子,识别出该条句子中包括至少两个目标人物的名称的步骤之后,本发明实施例所提供的方法还可以执行:查询预先建立的目标人物关系表,判断至少两个目标人物间是否存在关系。
相应的,将该条句子添加至候选语料集的步骤,具体可以为:若识别出该条句子中包括至少两个目标人物的名称,且至少两个目标人物间存在关系,则将该条句子添加至候选语料集。
在识别出句子中包括至少两个目标人物的名称之后,可以通过查询目标人物关系表,如果这组至少两个目标人物在目标人物关系表中有关系,则说明这条句子表达了这组至少两个目标人物之间存在亲密度关系,则可以将这条句子添加至候选语料集。
目标人物关系表是在进行语料库整理之前,通过实体识别、人工标注等方式识别出至少两个目标人物之间的关系(例如夫妻、朋友、父子等)而建立的。
基于图1所示实施例,本发明实施例还提供了一种目标人物间亲密度识别方法,如图2所示,该方法可以包括如下步骤。
S201,获取语料库,其中,语料库包括多个待分析文本数据。
S202,利用预设的热词提取方法,从语料库中提取各热词,并获取各热词的亲密度标注信息。
S203,将各热词及各热词的亲密度标注信息存入热词库。
S204,针对多个待分析文本数据中的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集。
S205,针对候选语料集中的各条句子,识别该条句子中表示目标人物亲密度的各观点词,分别将各观点词与热词库中的各热词进行匹配,得到各观点词的亲密度,根据各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系。
在提取各热词、获取各热词的亲密度标注信息之后,还可以将各热词及各热词的亲密度标注信息存入热词库,这样,在获得候选语料集之后,针对候选语料集中的各条句子,可以识别出各条句子中表示目标人物亲密度的各观点词(例如喜欢、讨厌、心情愉悦等),将各观点词与热词库中的各热词分别进行匹配,通过匹配能够匹配出各观点词的亲密度(即用户预先标注的信息,例如表达正向情感的观点词的亲密度为1,表达负向情感的观点词的亲密度为-1,其他为0)。进一步地,一条句子中可能包括多个观点词,综合各观点词的亲密度,可以确定出这条句子对应的至少两个目标人物的亲密度关系。
S206,针对一组指定的至少两个目标人物,根据候选语料集中各条句子对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度。
应用本发明实施例,通过获取语料库,利用预设的热词提取方法,从语料库中提取各热词,并获取各热词的亲密度标注信息,针对语料库中多个待分析文本数据的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集,针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系,针对一组指定的至少两个目标人物,根据候选语料集中各条句子分别对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度。通过获取语料库,基于语料库构建候选语料集,并且根据语料库中各热词的亲密度标注信息,对候选语料集中的各条句子进行分析,能够确定出候选语料集中各条句子分别对应的至少两个目标人物的亲密度关系,进一步的,针对一组指定的至少两个目标人物,根据候选语料集中各条句子分别对应的指定的至少两个目标人物的亲密度关系,确定出基于语料库的指定的至少两个目标人物间的亲密度,利用候选语料集,可以快速地得到指定的至少两个目标人物间的亲密度,从而提高了识别目标任务之间亲密度的效率。并且,通过构建热词库的方式,将各热词及各热词的亲密度标注信息存入热词库,这样,在获得候选语料集之后,针对候选语料集中的各条句子,可以识别出各条句子中表示目标人物亲密度的各观点词,将各观点词与热词库中的各热词分别进行匹配,通过匹配能够匹配出各观点词的亲密度,提高了热词匹配的效率。
可选的,在图2所示实施例中,观点词可以包括表示至少两个目标人物间亲密关系的关系词。
相应的,识别该条句子中表示目标人物间关系的各观点词的步骤,具体可以为:识别该条句子中至少两个目标人物的名称,以及该条句子中表示至少两个目标人物间亲密关系的关系词。
分别将各观点词与热词库中的各热词进行匹配,得到各观点词的亲密度的步骤,具体可以为:将关系词与热词库中的各热词进行匹配,得到关系词的亲密度。
根据各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系的步骤,具体可以为:若关系词的亲密度为正向亲密度,则确定该条句子对应的至少两个目标人物的亲密度关系为正向亲密度关系;若关系词的亲密度为负向亲密度,则确定该条句子对应的至少两个目标人物的亲密度关系为负向亲密度关系。
观点词具体可以包括喜欢、讨厌、憎恶、暗恋等表示至少两个目标人物间亲密关系的关系词,如果一条句子中包括关系词,至少两个目标人物的名称和关系词之间一般会有直接的主谓宾关系,例如人物A喜欢人物B,即至少两个目标人物的名称和关系词组成一个三元组,可以直接从句子中识别出该三远组。在进行匹配时,直接将关系词与热词库中的各热词进行匹配,能够匹配出关系词的亲密度。如果关系词的亲密度为正向亲密度(例如关系词为喜欢、暗恋等),则可以直接确定该条句子对应的至少两个目标人物的亲密度关系为正向亲密度关系;如果关系词的亲密度为负向亲密度(例如关系词为讨厌、憎恶等),则可以直接确定该条句子对应的至少两个目标人物的亲密度关系为负向亲密度关系。
举例来说,如果热词库中,对于表达正向情感的热词(例如喜欢、心情愉悦、喜笑颜开等)标注为1,对于表达负向情感的热词(例如讨厌、憎恨、心情差等)标注为-1,其他热词标注为0。通过匹配,若关系词的亲密度为1,则确定该条句子对应的至少两个目标人物的亲密度关系为正向亲密度关系;若关系词的亲密度为-1,则确定该条句子对应的至少两个目标人物的亲密度关系为负向亲密度关系。
可选的,观点词还可以包括表示任一目标人物情感的情感词。
相应的,识别该条句子中表示目标人物间关系的各观点词的步骤,具体可以为:若该条句子中不存在关系词,则识别该条句子中分别表示各目标人物情感的情感词。
分别将各观点词与热词库中的各热词进行匹配,得到各观点词的亲密度的步骤,具体可以为:分别将各情感词与热词库中的各热词进行匹配,得到各情感词的亲密度。
根据各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系的步骤,具体可以为:统计亲密度为正向亲密度的情感词第一数目、亲密度为负向亲密度的情感词第二数目;若情感词第一数目大于情感词第二数目,则确定该条句子对应的至少两个目标人物的亲密度关系为正向亲密度关系;若情感词第一数目小于情感词第二数目,则确定该条句子对应的至少两个目标人物的亲密度关系为负向亲密度关系;若情感词第一数目等于情感词第二数目,则确定该条句子对应的至少两个目标人物的亲密度关系为中性亲密度关系。
在一些句子中可能并不包含直接表示至少两个目标人物间亲密关系的关系词,而是包含一些表示目标人物情感的情感词,例如人物A心情愉悦、喜笑颜开、人物B心情差等,情感词往往只与一个目标人物相关,则可以识别一个目标人物的名称和情感词组成的一个二元组。在进行匹配时,将句子中的各情感词分别与热词库中的各热词进行匹配,能够匹配出各情感词的亲密度。如果一条句子中,亲密度为正向亲密度的情感词第一数目大于亲密度为负向亲密度的情感词第二数目,则可以确定该条句子对应的至少两个目标人物的亲密度关系为正向亲密度关系;如果一条句子中,亲密度为正向亲密度的情感词第一数目小于亲密度为负向亲密度的情感词第二数目,则可以确定该条句子对应的至少两个目标人物的亲密度关系为负向亲密度关系;如果一条句子中,亲密度为正向亲密度的情感词第一数目等于亲密度为负向亲密度的情感词第二数目,则可以确定该条句子对应的至少两个目标人物的亲密度关系为中性亲密度关系。
举例来说,如果热词库中,对于表达正向情感的热词(例如喜欢、心情愉悦、喜笑颜开等)标注为1,对于表达负向情感的热词(例如讨厌、憎恨、心情差等)标注为-1,其他热词标注为0。通过匹配,如果一条句子中标为1的情感词的数目大于标为-1的情感词的数目,则确定该条句子对应的至少两个目标人物的亲密度关系为正向亲密度关系;如果一条句子中标为1的情感词的数目小于标为-1的情感词的数目,则确定该条句子对应的至少两个目标人物的亲密度关系为负向亲密度关系;如果一条句子中标为1的情感词的数目等于标为-1的情感词的数目,则确定该条句子对应的至少两个目标人物的亲密度关系为中性亲密度关系。
例如一条句子为:由于天气晴朗,人物A心情愉悦,喜笑颜开、高高兴兴地去上班,而人物B却愁眉苦脸。这条句子中,天气晴朗、心情愉悦、喜笑颜开、高高兴兴为表达正向情感的情感词,而愁眉苦脸为表达负向情感的情感词,在这条句子中有3个标注为1的情感词、有1个标注为-1的情感词,因此,这条句子对应的人物A和人物B的亲密度关系为正向亲密度关系。
基于图1所示实施例,本发明实施例还提供了一种目标人物间亲密度识别方法,该方法中在得到指定的至少两个目标人物间的亲密度后,提供结果验证,如图3所示,该方法可以包括如下步骤。
S301,获取语料库,其中,语料库包括多个待分析文本数据。
S302,利用预设的热词提取方法,从语料库中提取各热词,并获取各热词的亲密度标注信息。
S303,针对多个待分析文本数据中的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集。
S304,针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系。
S305,针对一组指定的至少两个目标人物,根据候选语料集中各条句子对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度。
S306,获取基于候选语料集的任一组至少两个目标人物间的亲密度权重标注值。
S307,针对任一组至少两个目标人物,根据候选语料集中各条句子分别对应的任一组至少两个目标人物的亲密度关系,计算任一组至少两个目标人物间的亲密度权重预测值。
S308,根据亲密度权重标注值及亲密度权重预测值,统计亲密度权重预测值与亲密度权重标注值的差值绝对值小于或等于预设阈值的目标人物组数目。
S309,根据目标人物组数目以及统计的样本语料集中目标人物总组数,计算亲密度分类准确率。
基于候选语料集,可以对每一组至少两个目标人物间的亲密度进行标注,得到任一组至少两个目标人物间的亲密度权重标注值,基于上述步骤可以计算出候选语料集中各条句子分别对应的至少两个目标人物的亲密度关系,进而可以计算出任一组至少两个目标人物间的亲密度权重预测值,通过亲密度分类准确率(即亲密度权重预测值与亲密度权重标注值的差值绝对值小于或等于预设阈值的目标人物组数目的比例)来验证效果。例如,可以通过公式(2)来验证分类效果。
其中,domain为任一组至少两个目标人物间的亲密度权重预测值,target为任一组至少两个目标人物间的亲密度权重标注值,Count(starpairs)为候选语料集中目标人物总组数。经验证,分类准确率可以达到80.34%,具有较好的分类效果。
如图4所示,为目标人物亲密度识别的流程,利用抓取程序抓取文本数据,通过上述方法构建候选语料集,并且通过实体识别、人工标注等方式识别出目标人物之间的关系,存入知识图谱。对候选语料集中的各条句子进行观点词识别,并且基于预先建立的热词库,对各条句子中能表达目标人物间亲密关系的观点词的亲密度进行匹配、识别,以及对各条句子中能表达目标人物情感的情感词的亲密度进行匹配、识别,基于识别结果确定每条句子的亲密度关系,并且根据每条句子的亲密度关系,输出目标人物间的亲密度。
相应于上述方法实施例,本发明实施例提供了一种目标人物间亲密度识别装置,如图5所示,该装置可以包括:
获取模块510,用于获取语料库,其中,语料库包括多个待分析文本数据;
提取模块520,用于利用预设的热词提取方法,从语料库中提取各热词,并获取各热词的亲密度标注信息;
添加模块530,用于针对多个待分析文本数据中的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集;
确定模块540,用于针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系;针对一组指定的至少两个目标人物,根据候选语料集中各条句子对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度。
可选的,该装置还可以包括:
分割模块,用于分别将多个待分析文本数据中的各文本数据分割成多条句子,并对分割后的各条句子分别进行分词处理,得到分割后的各条句子中的分词数据;
判断模块,用于针对分割后的各条句子,判断该条句子中的分词数据是否包括至少两个目标人物的名称。
可选的,该装置还可以包括:
查询模块,用于查询预先建立的目标人物关系表,判断至少两个目标人物间是否存在关系;
添加模块530,具体可以用于:
若识别出该条句子中包括至少两个目标人物的名称,且至少两个目标人物间存在关系,则将该条句子添加至候选语料集。
可选的,该装置还可以包括:
存储模块,用于将各热词及各热词的亲密度标注信息存入热词库;
确定模块540在用于针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系时,具体可以用于:
针对候选语料集中的各条句子,分别执行如下步骤:
识别该条句子中表示目标人物亲密度的各观点词;
分别将各观点词与热词库中的各热词进行匹配,得到各观点词的亲密度;
根据各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系。
可选的,观点词可以包括表示至少两个目标人物间亲密关系的关系词;
确定模块540在用于识别该条句子中表示目标人物间关系的各观点词时,具体可以用于:
识别该条句子中至少两个目标人物的名称,以及该条句子中表示至少两个目标人物间亲密关系的关系词;
确定模块540在用于分别将各观点词与热词库中的各热词进行匹配,得到各观点词的亲密度时,具体可以用于:
将关系词与热词库中的各热词进行匹配,得到关系词的亲密度;
确定模块540在用于根据各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系时,具体可以用于:
若关系词的亲密度为正向亲密度,则确定该条句子对应的至少两个目标人物的亲密度关系为正向亲密度关系;
若关系词的亲密度为负向亲密度,则确定该条句子对应的至少两个目标人物的亲密度关系为负向亲密度关系。
可选的,观点词还可以包括表示任一目标人物情感的情感词;
确定模块540在用于识别该条句子中表示目标人物间关系的各观点词时,具体可以用于:
若该条句子中不存在关系词,则识别该条句子中分别表示各目标人物情感的情感词;
确定模块540在用于分别将各观点词与热词库中的各热词进行匹配,得到各观点词的亲密度时,具体可以用于:
分别将各情感词与热词库中的各热词进行匹配,得到各情感词的亲密度;
确定模块540在用于根据各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系时,具体可以用于:
统计亲密度为正向亲密度的情感词第一数目、亲密度为负向亲密度的情感词第二数目;
若情感词第一数目大于情感词第二数目,则确定该条句子对应的至少两个目标人物的亲密度关系为正向亲密度关系;
若情感词第一数目小于情感词第二数目,则确定该条句子对应的至少两个目标人物的亲密度关系为负向亲密度关系;
若情感词第一数目等于情感词第二数目,则确定该条句子对应的至少两个目标人物的亲密度关系为中性亲密度关系。
可选的,确定模块540在用于针对一组指定的至少两个目标人物,根据候选语料集中各条句子对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度时,具体可以用于:
针对一组指定的至少两个目标人物,统计对应的指定的至少两个目标人物的亲密度关系为正向亲密度关系的第一句子数目、对应的指定的至少两个目标人物的亲密度关系为负向亲密度关系的第二句子数目,以及对应的指定的至少两个目标人物的亲密度关系为中性亲密度关系的第三句子数目;
计算第一句子数目与第二句子数目的差值,以及第一句子数目、第二句子数目和第三句子数目的总数目;
计算差值与总数目的比值,并将比值的数值作为指定的至少两个目标人物间的亲密度权重预测值,根据比值的符号,确定指定的至少两个目标人物间的亲密度正负向关系。
可选的,获取模块510,还可以用于获取基于候选语料集的任一组至少两个目标人物间的亲密度权重标注值;
该装置还可以包括:
计算模块,用于针对任一组至少两个目标人物,根据候选语料集中各条句子分别对应的任一组至少两个目标人物的亲密度关系,计算任一组至少两个目标人物间的亲密度权重预测值;
统计模块,用于根据亲密度权重标注值及亲密度权重预测值,统计亲密度权重预测值与亲密度权重标注值的差值绝对值小于或等于预设阈值的目标人物组数目;
计算模块,还可以用于根据目标人物组数目以及统计的样本语料集中目标人物总组数,计算亲密度分类准确率。
应用本发明实施例,通过获取语料库,利用预设的热词提取方法,从语料库中提取各热词,并获取各热词的亲密度标注信息,针对语料库中多个待分析文本数据的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集,针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系,针对一组指定的至少两个目标人物,根据候选语料集中各条句子分别对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度。通过获取语料库,基于语料库构建候选语料集,并且根据语料库中各热词的亲密度标注信息,对候选语料集中的各条句子进行分析,能够确定出候选语料集中各条句子分别对应的至少两个目标人物的亲密度关系,进一步的,针对一组指定的至少两个目标人物,根据候选语料集中各条句子分别对应的指定的至少两个目标人物的亲密度关系,确定出基于语料库的指定的至少两个目标人物间的亲密度,利用候选语料集,可以快速地得到指定的至少两个目标人物间的亲密度,从而提高了识别目标任务之间亲密度的效率。。
相应于上述方法实施例,本发明实施例还提供了一种电子设备,如图6所示,包括处理器610、通信接口620、存储器630和通信总线640,其中,处理器610、通信接口620、存储器630通过通信总线640完成相互间的通信;
存储器630,用于存放计算机程序;
处理器610,用于执行存储器630上所存放的计算机程序时,实现本发明实施例所提供的上述目标人物间亲密度识别方法。
应用本发明实施例,通过获取语料库,利用预设的热词提取方法,从语料库中提取各热词,并获取各热词的亲密度标注信息,针对语料库中多个待分析文本数据的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集,针对候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系,针对一组指定的至少两个目标人物,根据候选语料集中各条句子分别对应的指定的至少两个目标人物的亲密度关系,确定指定的至少两个目标人物间的亲密度。通过获取语料库,基于语料库构建候选语料集,并且根据语料库中各热词的亲密度标注信息,对候选语料集中的各条句子进行分析,能够确定出候选语料集中各条句子分别对应的至少两个目标人物的亲密度关系,进一步的,针对一组指定的至少两个目标人物,根据候选语料集中各条句子分别对应的指定的至少两个目标人物的亲密度关系,确定出基于语料库的指定的至少两个目标人物间的亲密度,利用候选语料集,可以快速地得到指定的至少两个目标人物间的亲密度,从而提高了识别目标任务之间亲密度的效率。。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(Non-volatile Memory,简称NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在电子设备上运行时,使得电子设备执行上述实施例中的目标人物间亲密度识别方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当该计算机程序产品在电子设备上运行时,使得电子设备执行上述实施例中的目标人物间亲密度识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,简称DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如数字多功能光盘(Digital Versatile Disc,简称DVD))、或者半导体介质(例如固态硬盘(SolidState Disk,简称SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (11)
1.一种目标人物间亲密度识别方法,其特征在于,所述方法包括:
获取语料库,所述语料库包括多个待分析文本数据;
利用预设的热词提取方法,从所述语料库中提取各热词,并获取所述各热词的亲密度标注信息;
针对所述多个待分析文本数据中的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集;
针对所述候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系;
针对一组指定的至少两个目标人物,根据所述候选语料集中各条句子对应的所述指定的至少两个目标人物的亲密度关系,确定所述指定的至少两个目标人物间的亲密度。
2.根据权利要求1所述的方法,其特征在于,在所述针对所述多个待分析文本数据中的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集之前,所述方法还包括:
分别将所述多个待分析文本数据中的各文本数据分割成多条句子,并对分割后的各条句子分别进行分词处理,得到所述分割后的各条句子中的分词数据;
针对所述多个待分析文本数据中的各条句子,识别该条句子中是否包括至少两个目标人物的名称的方式,包括:
针对所述分割后的各条句子,判断该条句子中的分词数据是否包括至少两个目标人物的名称。
3.根据权利要求1或2所述的方法,其特征在于,在所述针对所述多个待分析文本数据中的各条句子,识别出该条句子中包括至少两个目标人物的名称之后,所述方法还包括:
查询预先建立的目标人物关系表,判断所述至少两个目标人物间是否存在关系;
所述将该条句子添加至候选语料集,包括:
若识别出该条句子中包括至少两个目标人物的名称,且所述至少两个目标人物间存在关系,则将该条句子添加至候选语料集。
4.根据权利要求1所述的方法,其特征在于,在所述利用预设的热词提取方法,从所述语料库中提取各热词,并获取所述各热词的亲密度标注信息之后,所述方法还包括:
将所述各热词及所述各热词的亲密度标注信息存入热词库;
所述针对所述候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系,包括:
针对所述候选语料集中的各条句子,分别执行如下步骤:
识别该条句子中表示目标人物亲密度的各观点词;
分别将所述各观点词与所述热词库中的各热词进行匹配,得到所述各观点词的亲密度;
根据所述各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系。
5.根据权利要求4所述的方法,其特征在于,所述观点词包括表示至少两个目标人物间亲密关系的关系词;
所述识别该条句子中表示目标人物间关系的各观点词,包括:
识别该条句子中至少两个目标人物的名称,以及该条句子中表示所述至少两个目标人物间亲密关系的关系词;
所述分别将所述各观点词与所述热词库中的各热词进行匹配,得到所述各观点词的亲密度,包括:
将所述关系词与所述热词库中的各热词进行匹配,得到所述关系词的亲密度;
所述根据所述各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系,包括:
若所述关系词的亲密度为正向亲密度,则确定该条句子对应的所述至少两个目标人物的亲密度关系为正向亲密度关系;
若所述关系词的亲密度为负向亲密度,则确定该条句子对应的所述至少两个目标人物的亲密度关系为负向亲密度关系。
6.根据权利要求5所述的方法,其特征在于,所述观点词还包括表示任一目标人物情感的情感词;
所述识别该条句子中表示目标人物间关系的各观点词,包括:
若该条句子中不存在所述关系词,则识别该条句子中分别表示各目标人物情感的情感词;
所述分别将所述各观点词与所述热词库中的各热词进行匹配,得到所述各观点词的亲密度,包括:
分别将各情感词与所述热词库中的各热词进行匹配,得到所述各情感词的亲密度;
所述根据所述各观点词的亲密度,确定该条句子对应的至少两个目标人物的亲密度关系,包括:
统计亲密度为正向亲密度的情感词第一数目、亲密度为负向亲密度的情感词第二数目;
若所述情感词第一数目大于所述情感词第二数目,则确定该条句子对应的所述至少两个目标人物的亲密度关系为正向亲密度关系;
若所述情感词第一数目小于所述情感词第二数目,则确定该条句子对应的所述至少两个目标人物的亲密度关系为负向亲密度关系;
若所述情感词第一数目等于所述情感词第二数目,则确定该条句子对应的所述至少两个目标人物的亲密度关系为中性亲密度关系。
7.根据权利要求1所述的方法,其特征在于,所述针对一组指定的至少两个目标人物,根据所述候选语料集中各条句子对应的所述指定的至少两个目标人物的亲密度关系,确定所述指定的至少两个目标人物间的亲密度,包括:
针对一组指定的至少两个目标人物,统计对应的所述指定的至少两个目标人物的亲密度关系为正向亲密度关系的第一句子数目、对应的所述指定的至少两个目标人物的亲密度关系为负向亲密度关系的第二句子数目,以及对应的所述指定的至少两个目标人物的亲密度关系为中性亲密度关系的第三句子数目;
计算所述第一句子数目与所述第二句子数目的差值,以及所述第一句子数目、第二句子数目和第三句子数目的总数目;
计算所述差值与所述总数目的比值,并将所述比值的数值作为所述指定的至少两个目标人物间的亲密度权重预测值,根据所述比值的符号,确定所述指定的至少两个目标人物间的亲密度正负向关系。
8.根据权利要求1所述的方法,其特征在于,在所述针对一组指定的至少两个目标人物,根据所述候选语料集中各条句子对应的所述指定的至少两个目标人物的亲密度关系,确定所述指定的至少两个目标人物间的亲密度之后,所述方法还包括:
获取基于所述候选语料集的任一组至少两个目标人物间的亲密度权重标注值;
针对所述任一组至少两个目标人物,根据所述候选语料集中各条句子分别对应的所述任一组至少两个目标人物的亲密度关系,计算所述任一组至少两个目标人物间的亲密度权重预测值;
根据所述亲密度权重标注值及所述亲密度权重预测值,统计所述亲密度权重预测值与所述亲密度权重标注值的差值绝对值小于或等于预设阈值的目标人物组数目;
根据所述目标人物组数目以及统计的所述样本语料集中目标人物总组数,计算亲密度分类准确率。
9.一种目标人物间亲密度识别装置,其特征在于,所述装置包括:
获取模块,用于获取语料库,所述语料库包括多个待分析文本数据;
提取模块,用于利用预设的热词提取方法,从所述语料库中提取各热词,并获取所述各热词的亲密度标注信息;
添加模块,用于针对所述多个待分析文本数据中的各条句子,若识别出该条句子中包括至少两个目标人物的名称,则将该条句子添加至候选语料集;
确定模块,用于针对所述候选语料集中的各条句子,根据该条句子中各热词的亲密度标注信息,确定该条句子对应的至少两个目标人物的亲密度关系;针对一组指定的至少两个目标人物,根据所述候选语料集中各条句子对应的所述指定的至少两个目标人物的亲密度关系,确定所述指定的至少两个目标人物间的亲密度。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的计算机程序时,实现权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当指令在电子设备上运行时,使得电子设备执行权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911056228.1A CN110825847B (zh) | 2019-10-31 | 2019-10-31 | 目标人物间亲密度识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911056228.1A CN110825847B (zh) | 2019-10-31 | 2019-10-31 | 目标人物间亲密度识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110825847A true CN110825847A (zh) | 2020-02-21 |
CN110825847B CN110825847B (zh) | 2022-09-02 |
Family
ID=69552067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911056228.1A Active CN110825847B (zh) | 2019-10-31 | 2019-10-31 | 目标人物间亲密度识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825847B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407594A (zh) * | 2021-06-18 | 2021-09-17 | 重庆紫光华山智安科技有限公司 | 一种融合关系分析方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007127738A (ja) * | 2005-11-02 | 2007-05-24 | Advanced Telecommunication Research Institute International | 音声認識装置、およびプログラム |
CN103235772A (zh) * | 2013-03-08 | 2013-08-07 | 北京理工大学 | 一种文本集人物关系自动提取方法 |
US20140337427A1 (en) * | 2013-05-07 | 2014-11-13 | DeNA Co., Ltd. | System for recommending electronic contents |
CN106484675A (zh) * | 2016-09-29 | 2017-03-08 | 北京理工大学 | 融合分布式语义和句义特征的人物关系抽取方法 |
CN106776544A (zh) * | 2016-11-24 | 2017-05-31 | 四川无声信息技术有限公司 | 人物关系识别方法及装置和分词方法 |
CN107220238A (zh) * | 2017-05-24 | 2017-09-29 | 电子科技大学 | 一种基于混合网络模型的文本对象抽取方法 |
CN107526722A (zh) * | 2017-07-31 | 2017-12-29 | 努比亚技术有限公司 | 一种人物关系分析方法及终端 |
CN107944911A (zh) * | 2017-11-18 | 2018-04-20 | 电子科技大学 | 一种基于文本分析的推荐系统的推荐方法 |
CN108959418A (zh) * | 2018-06-06 | 2018-12-07 | 中国人民解放军国防科技大学 | 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质 |
CN108959630A (zh) * | 2018-07-24 | 2018-12-07 | 电子科技大学 | 一种面向英文无结构文本的人物属性抽取方法 |
-
2019
- 2019-10-31 CN CN201911056228.1A patent/CN110825847B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007127738A (ja) * | 2005-11-02 | 2007-05-24 | Advanced Telecommunication Research Institute International | 音声認識装置、およびプログラム |
CN103235772A (zh) * | 2013-03-08 | 2013-08-07 | 北京理工大学 | 一种文本集人物关系自动提取方法 |
US20140337427A1 (en) * | 2013-05-07 | 2014-11-13 | DeNA Co., Ltd. | System for recommending electronic contents |
CN106484675A (zh) * | 2016-09-29 | 2017-03-08 | 北京理工大学 | 融合分布式语义和句义特征的人物关系抽取方法 |
CN106776544A (zh) * | 2016-11-24 | 2017-05-31 | 四川无声信息技术有限公司 | 人物关系识别方法及装置和分词方法 |
CN107220238A (zh) * | 2017-05-24 | 2017-09-29 | 电子科技大学 | 一种基于混合网络模型的文本对象抽取方法 |
CN107526722A (zh) * | 2017-07-31 | 2017-12-29 | 努比亚技术有限公司 | 一种人物关系分析方法及终端 |
CN107944911A (zh) * | 2017-11-18 | 2018-04-20 | 电子科技大学 | 一种基于文本分析的推荐系统的推荐方法 |
CN108959418A (zh) * | 2018-06-06 | 2018-12-07 | 中国人民解放军国防科技大学 | 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质 |
CN108959630A (zh) * | 2018-07-24 | 2018-12-07 | 电子科技大学 | 一种面向英文无结构文本的人物属性抽取方法 |
Non-Patent Citations (2)
Title |
---|
FUMINORI KIMURA ET AL.: "Method for supporting analysis of personal relationships through place names extracted from documents", 《IEEE/ACM JOINT CONFERENCE ON DIGITAL LIBRARIES》 * |
阚琪: "基于条件随机场的命名实体识别及实体关系识别的研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407594A (zh) * | 2021-06-18 | 2021-09-17 | 重庆紫光华山智安科技有限公司 | 一种融合关系分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110825847B (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073568B (zh) | 关键词提取方法和装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN110888990B (zh) | 文本推荐方法、装置、设备及介质 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
US20150242393A1 (en) | System and Method for Classifying Text Sentiment Classes Based on Past Examples | |
CN112329824A (zh) | 多模型融合训练方法、文本分类方法以及装置 | |
CN113254777B (zh) | 信息推荐方法、装置、电子设备及存储介质 | |
CN114416998A (zh) | 文本标签的识别方法、装置、电子设备及存储介质 | |
CN110858353A (zh) | 获取案件裁判结果的方法和系统 | |
CN111695357A (zh) | 文本标注方法及相关产品 | |
CN109740156B (zh) | 反馈信息处理方法、装置、电子设备及存储介质 | |
CN113590945B (zh) | 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置 | |
CN111291551A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
KR20200127587A (ko) | 뉴스 기사의 감성 정보 레이블링 프로그램 | |
KR20200127553A (ko) | 뉴스 기사의 감성 정보 레이블링 방법 | |
CN110825847B (zh) | 目标人物间亲密度识别方法、装置、电子设备及存储介质 | |
CN111400516B (zh) | 标签确定方法、电子设备及存储介质 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN110837732A (zh) | 目标人物间亲密度识别方法、装置、电子设备及存储介质 | |
CN115687790B (zh) | 基于大数据的广告推送方法、系统及云平台 | |
KR20200127555A (ko) | 뉴스 기사의 감성 정보 레이블링 프로그램 | |
CN115510269A (zh) | 视频推荐的方法、装置、设备和存储介质 | |
CN113656575A (zh) | 训练数据的生成方法、装置、电子设备及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |