CN110738046A - 观点抽取方法及装置 - Google Patents

观点抽取方法及装置 Download PDF

Info

Publication number
CN110738046A
CN110738046A CN201810720034.6A CN201810720034A CN110738046A CN 110738046 A CN110738046 A CN 110738046A CN 201810720034 A CN201810720034 A CN 201810720034A CN 110738046 A CN110738046 A CN 110738046A
Authority
CN
China
Prior art keywords
comment
viewpoint
sentence
quintuple
subjective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810720034.6A
Other languages
English (en)
Other versions
CN110738046B (zh
Inventor
雍倩
尹存祥
吴伟佳
潘旭
韦庭
崔路男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810720034.6A priority Critical patent/CN110738046B/zh
Publication of CN110738046A publication Critical patent/CN110738046A/zh
Application granted granted Critical
Publication of CN110738046B publication Critical patent/CN110738046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种观点抽取方法及装置,其中方法包括:获取待处理的文本内容;将文本内容中的各个语句输入预设的主观句识别模型,获取各个语句中的主观句;主观句为对评论对象进行评论的语句;针对主观句,抽取主观句中的观点五元组;观点五元组包括:评论对象、评论属性、评论词、评论者以及评论时间;根据观点五元组,确定针对评论对象和评论属性的各类型评论的占比;将针对评论对象和评论属性的各类型评论的占比,以及主观句,确定为文本内容对应的观点,从而能够先提取文本内容中的主观句,然后针对主观句进行五元组抽取和观点分析操作,减少了需要分析的五元组的数量,提高了五元组分析的准确度,能够满足实时性和准确率的要求。

Description

观点抽取方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种观点抽取方法及装置。
背景技术
目前的观点抽取方法主要包括:从新闻文章的各个语句中抽取评论对象、对评论对象的情感等信息,根据对评论对象的情感等信息,分析确定新闻文章中的观点。然而上述方法中,需要针对新闻文章中的每个语句进行抽取操作,大大增加了抽取到的信息的数量,大大增加了对抽取到的信息的分析时间,且难以分析得到准确的观点,从而降低了计算效率和计算准确度,难以满足实时性和准确率的要求。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种观点抽取方法,用于解决现有技术中观点抽取效率差和准确率差的问题。
本发明的第二个目的在于提出一种观点抽取装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种观点抽取方法,包括:
获取待处理的文本内容;
将所述文本内容中的各个语句输入预设的主观句识别模型,获取所述各个语句中的主观句;所述主观句为对评论对象进行评论的语句;
针对所述主观句,抽取所述主观句中的观点五元组;所述观点五元组包括:评论对象、评论属性、评论词、评论者以及评论时间;
根据所述观点五元组,确定针对所述评论对象和所述评论属性的各类型评论的占比;
将针对所述评论对象和所述评论属性的各类型评论的占比,以及所述主观句,确定为所述文本内容对应的观点。
进一步的,所述将所述文本内容中的各个语句输入预设的主观句识别模型,获取所述各个语句中的主观句之前,还包括:
按照预设的语句切分规则对所述文本内容进行语句切分,获取所述文本内容中的各个语句;
所述语句切分规则包括以下规则中的任意一种或者多种:按照语句结束符号进行切分、点符号之前和之后为数字时不进行切分。
进一步的,所述将所述文本内容中的各个语句输入预设的主观句识别模型,获取所述各个语句中的主观句之前,还包括:
获取训练数据;所述训练数据中包括:至少一个训练语句,以及所述训练语句对应的类型;所述类型包括:主观句和客观句;
采用所述训练数据对初始的主观句识别模型进行训练,得到所述预设的主观句识别模型。
进一步的,所述针对所述主观句,抽取所述主观句中的观点五元组,包括:
对所述主观句进行分词,获取所述主观句中的各个词语以及所述词语的词性;
将词性为名词、动名词或者名词性短语的词语,确定为所述评论对象和所述评论属性;
将词性为形容词或者副词的词语,确定为所述评论词;
将所述各个词语输入预设的人名识别模型,获取所述各个词语中的评论者;
将所述各个词语中与时间相关的词语,确定为评论时间。
进一步的,所述根据所述观点五元组,确定针对所述评论对象和所述评论属性的各类型评论的占比之前,还包括:
获取预设的过滤规则;所述过滤规则中包括:至少一个观点五元组模板;判断所述观点五元组与所述观点五元组模板是否匹配;若所述观点五元组与所述观点五元组模板不匹配,则过滤掉所述观点五元组;
和/或,
将所述观点五元组输入预设的随机森林模型,过滤掉输出结果不满足预设条件的观点五元组。
进一步的,所述根据所述观点五元组,确定针对所述评论对象和所述评论属性的各类型评论的占比,包括:
将所述观点五元组中,评论对象相同且评论属性相同的观点五元组聚合在一起,得到所述评论对象和所述评论属性对应的观点五元组集合;
针对所述观点五元组集合,获取所述集合中的各个观点五元组中的评论词,获取所述评论词的类型;所述类型包括:正面、负面和中立;
对所述观点五元组集合中,各个类型的评论词进行统计,获取针对所述评论对象和所述评论属性的各类型评论的占比。
本发明实施例的观点抽取方法,通过获取待处理的文本内容;将文本内容中的各个语句输入预设的主观句识别模型,获取各个语句中的主观句;主观句为对评论对象进行评论的语句;针对主观句,抽取主观句中的观点五元组;观点五元组包括:评论对象、评论属性、评论词、评论者以及评论时间;根据观点五元组,确定针对评论对象和评论属性的各类型评论的占比;将针对评论对象和评论属性的各类型评论的占比,以及主观句,确定为文本内容对应的观点,从而能够先提取文本内容中的主观句,然后针对主观句进行五元组抽取和观点分析操作,减少了需要分析的五元组的数量,提高了五元组分析的准确度,能够满足实时性和准确率的要求。
为达上述目的,本发明第二方面实施例提出了一种观点抽取装置,包括:
获取模块,用于获取待处理的文本内容;
输入模块,用于将所述文本内容中的各个语句输入预设的主观句识别模型,获取所述各个语句中的主观句;所述主观句为对评论对象进行评论的语句;
抽取模块,用于针对所述主观句,抽取所述主观句中的观点五元组;所述观点五元组包括:评论对象、评论属性、评论词、评论者以及评论时间;
确定模块,用于根据所述观点五元组,确定针对所述评论对象和所述评论属性的各类型评论的占比;
所述确定模块,还用于将针对所述评论对象和所述评论属性的各类型评论的占比,以及所述主观句,确定为所述文本内容对应的观点。
进一步的,所述的装置还包括:
语句切分模块,用于按照预设的语句切分规则对所述文本内容进行语句切分,获取所述文本内容中的各个语句;
所述语句切分规则包括以下规则中的任意一种或者多种:按照语句结束符号进行切分、点符号之前和之后为数字时不进行切分。
进一步的,所述的装置还包括:训练模块;
所述获取模块,还用于获取训练数据;所述训练数据中包括:至少一个训练语句,以及所述训练语句对应的类型;所述类型包括:主观句和客观句;
所述训练模块,用于采用所述训练数据对初始的主观句识别模型进行训练,得到所述预设的主观句识别模型。
进一步的,所述抽取模块具体用于,
对所述主观句进行分词,获取所述主观句中的各个词语以及所述词语的词性;
将词性为名词、动名词或者名词性短语的词语,确定为所述评论对象和所述评论属性;
将词性为形容词或者副词的词语,确定为所述评论词;
将所述各个词语输入预设的人名识别模型,获取所述各个词语中的评论者;
将所述各个词语中与时间相关的词语,确定为评论时间。
进一步的,所述的装置还包括:
过滤模块,用于获取预设的过滤规则;所述过滤规则中包括:至少一个观点五元组模板;判断所述观点五元组与所述观点五元组模板是否匹配;若所述观点五元组与所述观点五元组模板不匹配,则过滤掉所述观点五元组;
和/或,
将所述观点五元组输入预设的随机森林模型,过滤掉输出结果不满足预设条件的观点五元组。
进一步的,所述确定模块具体用于,
将所述观点五元组中,评论对象相同且评论属性相同的观点五元组聚合在一起,得到所述评论对象和所述评论属性对应的观点五元组集合;
针对所述观点五元组集合,获取所述集合中的各个观点五元组中的评论词,获取所述评论词的类型;所述类型包括:正面、负面和中立;
对所述观点五元组集合中,各个类型的评论词进行统计,获取针对所述评论对象和所述评论属性的各类型评论的占比。
本发明实施例的观点抽取装置,通过获取待处理的文本内容;将文本内容中的各个语句输入预设的主观句识别模型,获取各个语句中的主观句;主观句为对评论对象进行评论的语句;针对主观句,抽取主观句中的观点五元组;观点五元组包括:评论对象、评论属性、评论词、评论者以及评论时间;根据观点五元组,确定针对评论对象和评论属性的各类型评论的占比;将针对评论对象和评论属性的各类型评论的占比,以及主观句,确定为文本内容对应的观点,从而能够先提取文本内容中的主观句,然后针对主观句进行五元组抽取和观点分析操作,减少了需要分析的五元组的数量,提高了五元组分析的准确度,能够满足实时性和准确率的要求。
为达上述目的,本发明第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的观点抽取方法。
为了实现上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的观点抽取方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的观点抽取方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种观点抽取方法的流程示意图;
图2为本发明实施例提供的另一种观点抽取方法的流程示意图;
图3为本发明实施例提供的一种观点抽取装置的结构示意图;
图4为本发明实施例提供的另一种观点抽取装置的结构示意图;
图5为本发明实施例提供的另一种观点抽取装置的结构示意图;
图6为本发明实施例提供的另一种观点抽取装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的观点抽取方法及装置。
图1为本发明实施例提供的一种观点抽取方法的流程示意图。如图1所示,该观点抽取方法包括以下步骤:
S101、获取待处理的文本内容。
本发明提供的观点抽取方法的执行主体为观点抽取装置,观点抽取装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。另外,观点抽取装置还可以为API 接口函数,当其他设备需要抽取某个文本内容中的观点时,可以将文本内容作为参数调用上述API接口函数,API接口函数的返回值为文本内容中的观点。其中,待处理的文本内容可以为新闻文章、对新闻文章的评论等文本内容。
S102、将文本内容中的各个语句输入预设的主观句识别模型,获取各个语句中的主观句;主观句为对评论对象进行评论的语句。
本实施例中,主观句识别模型例如可以为,双向循环神经网络模型BILSTM+注意力模型attention,用于获取语句中的词语,根据词语判断语句的类型。其中,主观句识别模型的输入可以为语句,输出可以为语句的类型。其中,语句的类型包括:主观句和客观句。
本实施例中,预设的主观句识别模型的训练过程具体可以为,获取训练数据;训练数据中包括:至少一个训练语句,以及训练语句对应的类型;采用训练数据对初始的主观句识别模型进行训练,得到预设的主观句识别模型。
进一步的,在上述实施例的基础上,所述的方法还可以包括:对文本内容进行切分获取各个语句。本实施例中,观点抽取装置对文本内容进行切分获取各个语句的过程具体可以为,按照预设的语句切分规则对文本内容进行语句切分,获取文本内容中的各个语句;语句切分规则包括以下规则中的任意一种或者多种:按照语句结束符号进行切分、点符号之前和之后为数字时不进行切分。其中,语句结束符号例如,句号、问号、感叹号等。点符号之前和之后为数字的情况例如94.5%。
S103、针对主观句,抽取主观句中的观点五元组;观点五元组包括:评论对象、评论属性、评论词、评论者以及评论时间。
本实施例中,观点抽取装置抽取主观句中的观点五元组的过程具体可以为,对主观句进行分词,获取主观句中的各个词语以及词语的词性;将词性为名词、动名词或者名词性短语的词语,确定为评论对象和评论属性;将词性为形容词或者副词的词语,确定为评论词;将各个词语输入预设的人名识别模型,获取各个词语中的评论者;将各个词语中与时间相关的词语,确定为评论时间。
其中,评论者指的是做出评论词的人员;评论对象为评论者评论的对象;评论属性指的是评论对象当前被评论的属性。以评论对象为“鲜花”为例,其对应的评论属性可以为“颜色”、“味道”、“形状”等属性。
本实施例中,可以从一个主观句中抽取出多个观点五元组。例如,假设某个主观句中,可作为评论对象的词语有3个,可作为评论属性的词语有3个,可作为评论词的词语有2个,可作为评论者的词语有1个,可作为评论时间的词语有1个,则从主观句中抽取得到的观点五元组的数量为3×3×2×1×1=18个,也就是说,从该主观句中抽取出18个观点五元组。
另外,需要说明的是,并不是每个主观句中都能抽取到观点五元组中的5个元素,有些元素可能抽取不到,例如,评论时间、评论者等,观点抽取装置可以将未抽取到的部分元素置为空。
S104、根据观点五元组,确定针对评论对象和评论属性的各类型评论的占比。
本实施例中,观点抽取装置可以根据包括相同评论对象和相同评论属性的观点五元组中的评论词,来计算确定针对评论对象和评论属性的各类型评论的占比。
进一步的,在上述实施例的基础上,为了减少需要统计分析的观点五元组的数量,可以将步骤103中获取到的观点五元组中不合适的观点五元组过滤掉,因此,步骤104之前,所述的方法还可以包括以下步骤:获取预设的过滤规则;过滤规则中包括:至少一个观点五元组模板;判断观点五元组与观点五元组模板是否匹配;若观点五元组与观点五元组模板不匹配,则过滤掉观点五元组;和/或,将观点五元组输入预设的随机森林模型,过滤掉输出结果不满足预设条件的观点五元组。
其中,观点抽取装置可以先根据预设的过滤规则与观点五元组进行匹配,获取匹配的观点五元组;若未获取到匹配的观点五元组,则将观点五元组输入预设的随机森林模型,过滤掉输出结果不满足预设条件的观点五元组。其中,随机森林模型为分类模型,可以根据随机森林模型的分类结果来确定是否满足预设条件;此时,预设条件可以为预设的分类结果。
本实施例中,对步骤103中获取到的观点五元组的过滤过程,可以减少需要分析的观点五元组的数量,大大降低了对抽取到的信息的分析时间,且容易分析得到准确的观点,从而提高了计算效率和计算准确度,能够满足实时性和准确率的要求。
S105、将针对评论对象和评论属性的各类型评论的占比,以及主观句,确定为文本内容对应的观点。
本实施例中,观点抽取装置获取到文本内容对应的观点后,可以将观点按照预设的格式进行统一,统一后进行存储,以便后续进行查询。
本发明实施例的观点抽取方法,通过获取待处理的文本内容;将文本内容中的各个语句输入预设的主观句识别模型,获取各个语句中的主观句;主观句为对评论对象进行评论的语句;针对主观句,抽取主观句中的观点五元组;观点五元组包括:评论对象、评论属性、评论词、评论者以及评论时间;根据观点五元组,确定针对评论对象和评论属性的各类型评论的占比;将针对评论对象和评论属性的各类型评论的占比,以及主观句,确定为文本内容对应的观点,从而能够先提取文本内容中的主观句,然后针对主观句进行五元组抽取和观点分析操作,减少了需要分析的五元组的数量,提高了五元组分析的准确度,能够满足实时性和准确率的要求。
结合参考图2,在图1所示实施例的基础上,步骤104具体可以包括以下步骤:
S1041、将观点五元组中,评论对象相同且评论属性相同的观点五元组聚合在一起,得到评论对象和评论属性对应的观点五元组集合。
本实施例中,观点抽取装置具体可以将评论对象相同或相似,且评论属性相同或相似的观点五元组聚合在一起,得到各个评论对象和评论属性对应的观点五元组集合。具体地,观点抽取装置执行上述步骤的过程具体可以为,针对各个观点五元组,获取其中的评论对象对应的word2vec向量,以及获取其中的评论属性对应的word2vec向量。其中,针对含义相同或相似的两个词语,该两个词语对应的word2vec向量的相似度较高;针对含义不同且不相似的两个词语,该两个词语对应的word2vec向量的相似度较低。因此,针对任意两个观点五元组,可以在两个评论对象的word2vec向量的相似度大于第一相似度阈值,且两个评论属性的word2vec向量的相似度大于第二相似度阈值时,将该两个观点五元组聚合在一起,得到评论对象和评论属性对应的观点五元组集合。
S1042、针对观点五元组集合,获取集合中的各个观点五元组中的评论词,获取评论词的类型;类型包括:正面、负面和中立。
本实施例中,针对观点五元组集合中的各个观点五元组,可以将其中的评论词输入预设的评论词识别模型,获取评论词的类型。其中,评论词识别模型可以根据大量标注了类型的评论词进行训练。
S1043、对观点五元组集合中,各个类型的评论词进行统计,获取针对评论对象和评论属性的各类型评论的占比。
本实施例中,针对观点五元组集合,获取到其中评论词的类型后,可以计算评论词类型相同的观点五元组的数量,根据各类型的观点五元组的数量,确定各类型评论的占比。
本发明实施例的观点抽取方法,通过获取待处理的文本内容;将文本内容中的各个语句输入预设的主观句识别模型,获取各个语句中的主观句;主观句为对评论对象进行评论的语句;针对主观句,抽取主观句中的观点五元组;观点五元组包括:评论对象、评论属性、评论词、评论者以及评论时间;将观点五元组中,评论对象相同且评论属性相同的观点五元组聚合在一起,得到评论对象和评论属性对应的观点五元组集合;针对观点五元组集合,获取集合中的各个观点五元组中的评论词,获取评论词的类型;类型包括:正面、负面和中立;对观点五元组集合中,各个类型的评论词进行统计,获取针对评论对象和评论属性的各类型评论的占比;将针对评论对象和评论属性的各类型评论的占比,以及主观句,确定为文本内容对应的观点,从而能够先提取文本内容中的主观句,然后针对主观句进行五元组抽取和观点分析操作,减少了需要分析的五元组的数量,提高了五元组分析的准确度,能够满足实时性和准确率的要求。
图3为本发明实施例提供的一种观点抽取装置的结构示意图。如图3所示,包括:获取模块31、输入模块32、抽取模块33和确定模块34。
其中,获取模块31,用于获取待处理的文本内容;
输入模块32,用于将所述文本内容中的各个语句输入预设的主观句识别模型,获取所述各个语句中的主观句;所述主观句为对评论对象进行评论的语句;
抽取模块33,用于针对所述主观句,抽取所述主观句中的观点五元组;所述观点五元组包括:评论对象、评论属性、评论词、评论者以及评论时间;
确定模块34,用于根据所述观点五元组,确定针对所述评论对象和所述评论属性的各类型评论的占比;
所述确定模块34,还用于将针对所述评论对象和所述评论属性的各类型评论的占比,以及所述主观句,确定为所述文本内容对应的观点。
本发明提供的观点抽取装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。另外,观点抽取装置还可以为API接口函数,当其他设备需要抽取某个文本内容中的观点时,可以将文本内容作为参数调用上述API接口函数,API接口函数的返回值为文本内容中的观点。其中,待处理的文本内容可以为新闻文章、对新闻文章的评论等文本内容。
本实施例中,主观句识别模型例如可以为,双向循环神经网络模型BILSTM+注意力模型attention,用于获取语句中的词语,根据词语判断语句的类型。其中,主观句识别模型的输入可以为语句,输出可以为语句的类型。其中,语句的类型包括:主观句和客观句。
进一步的,结合参考图4,在图3所示实施例的基础上,所述的装置还可以包括:训练模块35。对应的,所述获取模块31,还用于获取训练数据;所述训练数据中包括:至少一个训练语句,以及所述训练语句对应的类型;所述类型包括:主观句和客观句;所述训练模块35,用于采用所述训练数据对初始的主观句识别模型进行训练,得到所述预设的主观句识别模型。
进一步的,结合参考图5,在图3所示实施例的基础上,所述的装置还可以包括:语句切分模块36,用于对文本内容进行切分获取各个语句。本实施例中,观点抽取装置对文本内容进行切分获取各个语句的过程具体可以为,按照预设的语句切分规则对文本内容进行语句切分,获取文本内容中的各个语句;语句切分规则包括以下规则中的任意一种或者多种:按照语句结束符号进行切分、点符号之前和之后为数字时不进行切分。其中,语句结束符号例如,句号、问号、感叹号等。点符号之前和之后为数字的情况例如94.5%。
进一步的,在上述实施例的基础上,所述抽取模块33具体用于,对所述主观句进行分词,获取所述主观句中的各个词语以及所述词语的词性;将词性为名词、动名词或者名词性短语的词语,确定为所述评论对象和所述评论属性;将词性为形容词或者副词的词语,确定为所述评论词;将所述各个词语输入预设的人名识别模型,获取所述各个词语中的评论者;将所述各个词语中与时间相关的词语,确定为评论时间。
其中,评论者指的是做出评论词的人员;评论对象为评论者评论的对象;评论属性指的是评论对象当前被评论的属性。以评论对象为“鲜花”为例,其对应的评论属性可以为“颜色”、“味道”、“形状”等属性。
本实施例中,可以从一个主观句中抽取出多个观点五元组。例如,假设某个主观句中,可作为评论对象的词语有3个,可作为评论属性的词语有3个,可作为评论词的词语有2个,可作为评论者的词语有1个,可作为评论时间的词语有1个,则从主观句中抽取得到的观点五元组的数量为3×3×2×1×1=18个,也就是说,从该主观句中抽取出18个观点五元组。
进一步的,在上述实施例的基础上,为了减少需要统计分析的观点五元组的数量,可以将获取到的观点五元组中不合适的观点五元组过滤掉,因此,结合参考图6,在图3所示实施例的基础上,所述的装置还可以包括:过滤模块37,用于获取预设的过滤规则;过滤规则中包括:至少一个观点五元组模板;判断观点五元组与观点五元组模板是否匹配;若观点五元组与观点五元组模板不匹配,则过滤掉观点五元组;和/或,将观点五元组输入预设的随机森林模型,过滤掉输出结果不满足预设条件的观点五元组。
其中,观点抽取装置可以先根据预设的过滤规则与观点五元组进行匹配,获取匹配的观点五元组;若未获取到匹配的观点五元组,则将观点五元组输入预设的随机森林模型,过滤掉输出结果不满足预设条件的观点五元组。其中,随机森林模型为分类模型,可以根据随机森林模型的分类结果来确定是否满足预设条件;此时,预设条件可以为预设的分类结果。
本实施例中,对获取到的观点五元组的过滤过程,可以减少需要分析的观点五元组的数量,大大降低了对抽取到的信息的分析时间,且容易分析得到准确的观点,从而提高了计算效率和计算准确度,能够满足实时性和准确率的要求。
本发明实施例的观点抽取装置,通过获取待处理的文本内容;将文本内容中的各个语句输入预设的主观句识别模型,获取各个语句中的主观句;主观句为对评论对象进行评论的语句;针对主观句,抽取主观句中的观点五元组;观点五元组包括:评论对象、评论属性、评论词、评论者以及评论时间;根据观点五元组,确定针对评论对象和评论属性的各类型评论的占比;将针对评论对象和评论属性的各类型评论的占比,以及主观句,确定为文本内容对应的观点,从而能够先提取文本内容中的主观句,然后针对主观句进行五元组抽取和观点分析操作,减少了需要分析的五元组的数量,提高了五元组分析的准确度,能够满足实时性和准确率的要求。
进一步的,在上述实施例的基础上,所述确定模块34具体用于,
将所述观点五元组中,评论对象相同且评论属性相同的观点五元组聚合在一起,得到所述评论对象和所述评论属性对应的观点五元组集合;
针对所述观点五元组集合,获取所述集合中的各个观点五元组中的评论词,获取所述评论词的类型;所述类型包括:正面、负面和中立;
对所述观点五元组集合中,各个类型的评论词进行统计,获取针对所述评论对象和所述评论属性的各类型评论的占比。
本实施例中,观点抽取装置具体可以将评论对象相同或相似,且评论属性相同或相似的观点五元组聚合在一起,得到各个评论对象和评论属性对应的观点五元组集合。具体地,观点抽取装置执行上述步骤的过程具体可以为,针对各个观点五元组,获取其中的评论对象对应的word2vec向量,以及获取其中的评论属性对应的word2vec向量。其中,针对含义相同或相似的两个词语,该两个词语对应的word2vec向量的相似度较高;针对含义不同且不相似的两个词语,该两个词语对应的word2vec向量的相似度较低。因此,针对任意两个观点五元组,可以在两个评论对象的word2vec向量的相似度大于第一相似度阈值,且两个评论属性的word2vec向量的相似度大于第二相似度阈值时,将该两个观点五元组聚合在一起,得到评论对象和评论属性对应的观点五元组集合。
本实施例中,针对观点五元组集合中的各个观点五元组,可以将其中的评论词输入预设的评论词识别模型,获取评论词的类型。其中,评论词识别模型可以根据大量标注了类型的评论词进行训练。
本实施例中,针对观点五元组集合,获取到其中评论词的类型后,可以计算评论词类型相同的观点五元组的数量,根据各类型的观点五元组的数量,确定各类型评论的占比。
本发明实施例的观点抽取装置,通过获取待处理的文本内容;将文本内容中的各个语句输入预设的主观句识别模型,获取各个语句中的主观句;主观句为对评论对象进行评论的语句;针对主观句,抽取主观句中的观点五元组;观点五元组包括:评论对象、评论属性、评论词、评论者以及评论时间;将观点五元组中,评论对象相同且评论属性相同的观点五元组聚合在一起,得到评论对象和评论属性对应的观点五元组集合;针对观点五元组集合,获取集合中的各个观点五元组中的评论词,获取评论词的类型;类型包括:正面、负面和中立;对观点五元组集合中,各个类型的评论词进行统计,获取针对评论对象和评论属性的各类型评论的占比;将针对评论对象和评论属性的各类型评论的占比,以及主观句,确定为文本内容对应的观点,从而能够先提取文本内容中的主观句,然后针对主观句进行五元组抽取和观点分析操作,减少了需要分析的五元组的数量,提高了五元组分析的准确度,能够满足实时性和准确率的要求。
图7为本发明实施例提供的一种电子设备的结构示意图。该电子设备包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述实施例中提供的观点抽取方法。
进一步地,电子设备还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述实施例所述的观点抽取方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的观点抽取方法。
本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的观点抽取方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (15)

1.一种观点抽取方法,其特征在于,包括:
获取待处理的文本内容;
将所述文本内容中的各个语句输入预设的主观句识别模型,获取所述各个语句中的主观句;所述主观句为对评论对象进行评论的语句;
针对所述主观句,抽取所述主观句中的观点五元组;所述观点五元组包括:评论对象、评论属性、评论词、评论者以及评论时间;
根据所述观点五元组,确定针对所述评论对象和所述评论属性的各类型评论的占比;
将针对所述评论对象和所述评论属性的各类型评论的占比,以及所述主观句,确定为所述文本内容对应的观点。
2.根据权利要求1所述的方法,其特征在于,所述将所述文本内容中的各个语句输入预设的主观句识别模型,获取所述各个语句中的主观句之前,还包括:
按照预设的语句切分规则对所述文本内容进行语句切分,获取所述文本内容中的各个语句;
所述语句切分规则包括以下规则中的任意一种或者多种:按照语句结束符号进行切分、点符号之前和之后为数字时不进行切分。
3.根据权利要求1所述的方法,其特征在于,所述将所述文本内容中的各个语句输入预设的主观句识别模型,获取所述各个语句中的主观句之前,还包括:
获取训练数据;所述训练数据中包括:至少一个训练语句,以及所述训练语句对应的类型;所述类型包括:主观句和客观句;
采用所述训练数据对初始的主观句识别模型进行训练,得到所述预设的主观句识别模型。
4.根据权利要求1所述的方法,其特征在于,所述针对所述主观句,抽取所述主观句中的观点五元组,包括:
对所述主观句进行分词,获取所述主观句中的各个词语以及所述词语的词性;
将词性为名词、动名词或者名词性短语的词语,确定为所述评论对象和所述评论属性;
将词性为形容词或者副词的词语,确定为所述评论词;
将所述各个词语输入预设的人名识别模型,获取所述各个词语中的评论者;
将所述各个词语中与时间相关的词语,确定为评论时间。
5.根据权利要求1或4所述的方法,其特征在于,所述根据所述观点五元组,确定针对所述评论对象和所述评论属性的各类型评论的占比之前,还包括:
获取预设的过滤规则;所述过滤规则中包括:至少一个观点五元组模板;判断所述观点五元组与所述观点五元组模板是否匹配;若所述观点五元组与所述观点五元组模板不匹配,则过滤掉所述观点五元组;
和/或,
将所述观点五元组输入预设的随机森林模型,过滤掉输出结果不满足预设条件的观点五元组。
6.根据权利要求1所述的方法,其特征在于,所述根据所述观点五元组,确定针对所述评论对象和所述评论属性的各类型评论的占比,包括:
将所述观点五元组中,评论对象相同且评论属性相同的观点五元组聚合在一起,得到所述评论对象和所述评论属性对应的观点五元组集合;
针对所述观点五元组集合,获取所述集合中的各个观点五元组中的评论词,获取所述评论词的类型;所述类型包括:正面、负面和中立;
对所述观点五元组集合中,各个类型的评论词进行统计,获取针对所述评论对象和所述评论属性的各类型评论的占比。
7.一种观点抽取装置,其特征在于,包括:
获取模块,用于获取待处理的文本内容;
输入模块,用于将所述文本内容中的各个语句输入预设的主观句识别模型,获取所述各个语句中的主观句;所述主观句为对评论对象进行评论的语句;
抽取模块,用于针对所述主观句,抽取所述主观句中的观点五元组;所述观点五元组包括:评论对象、评论属性、评论词、评论者以及评论时间;
确定模块,用于根据所述观点五元组,确定针对所述评论对象和所述评论属性的各类型评论的占比;
所述确定模块,还用于将针对所述评论对象和所述评论属性的各类型评论的占比,以及所述主观句,确定为所述文本内容对应的观点。
8.根据权利要求7所述的装置,其特征在于,还包括:
语句切分模块,用于按照预设的语句切分规则对所述文本内容进行语句切分,获取所述文本内容中的各个语句;
所述语句切分规则包括以下规则中的任意一种或者多种:按照语句结束符号进行切分、点符号之前和之后为数字时不进行切分。
9.根据权利要求7所述的装置,其特征在于,还包括:训练模块;
所述获取模块,还用于获取训练数据;所述训练数据中包括:至少一个训练语句,以及所述训练语句对应的类型;所述类型包括:主观句和客观句;
所述训练模块,用于采用所述训练数据对初始的主观句识别模型进行训练,得到所述预设的主观句识别模型。
10.根据权利要求7所述的装置,其特征在于,所述抽取模块具体用于,
对所述主观句进行分词,获取所述主观句中的各个词语以及所述词语的词性;
将词性为名词、动名词或者名词性短语的词语,确定为所述评论对象和所述评论属性;
将词性为形容词或者副词的词语,确定为所述评论词;
将所述各个词语输入预设的人名识别模型,获取所述各个词语中的评论者;
将所述各个词语中与时间相关的词语,确定为评论时间。
11.根据权利要求7或10所述的装置,其特征在于,还包括:
过滤模块,用于获取预设的过滤规则;所述过滤规则中包括:至少一个观点五元组模板;判断所述观点五元组与所述观点五元组模板是否匹配;若所述观点五元组与所述观点五元组模板不匹配,则过滤掉所述观点五元组;
和/或,
将所述观点五元组输入预设的随机森林模型,过滤掉输出结果不满足预设条件的观点五元组。
12.根据权利要求7所述的装置,其特征在于,所述确定模块具体用于,
将所述观点五元组中,评论对象相同且评论属性相同的观点五元组聚合在一起,得到所述评论对象和所述评论属性对应的观点五元组集合;
针对所述观点五元组集合,获取所述集合中的各个观点五元组中的评论词,获取所述评论词的类型;所述类型包括:正面、负面和中立;
对所述观点五元组集合中,各个类型的评论词进行统计,获取针对所述评论对象和所述评论属性的各类型评论的占比。
13.一种电子设备,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的观点抽取方法。
14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的观点抽取方法。
15.一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如权利要求1-6中任一所述的观点抽取方法。
CN201810720034.6A 2018-07-03 2018-07-03 观点抽取方法及装置 Active CN110738046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810720034.6A CN110738046B (zh) 2018-07-03 2018-07-03 观点抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810720034.6A CN110738046B (zh) 2018-07-03 2018-07-03 观点抽取方法及装置

Publications (2)

Publication Number Publication Date
CN110738046A true CN110738046A (zh) 2020-01-31
CN110738046B CN110738046B (zh) 2023-06-06

Family

ID=69234323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810720034.6A Active CN110738046B (zh) 2018-07-03 2018-07-03 观点抽取方法及装置

Country Status (1)

Country Link
CN (1) CN110738046B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754352A (zh) * 2020-06-22 2020-10-09 平安资产管理有限责任公司 一种观点语句正确性的判断方法、装置、设备和存储介质
CN111914536A (zh) * 2020-08-06 2020-11-10 北京嘀嘀无限科技发展有限公司 观点分析方法、装置、设备及存储介质
CN113220885A (zh) * 2021-05-21 2021-08-06 支付宝(杭州)信息技术有限公司 一种文本处理方法和系统
CN113282754A (zh) * 2021-06-10 2021-08-20 北京中科闻歌科技股份有限公司 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN117131161A (zh) * 2023-10-24 2023-11-28 北京社会管理职业学院(民政部培训中心) 一种电动轮椅用户需求提取方法、系统及电子设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702167A (zh) * 2009-11-03 2010-05-05 上海第二工业大学 一种基于互联网的模板抽取属性和评论词的方法
JP2010257347A (ja) * 2009-04-27 2010-11-11 Hitachi Ltd 指導支援システム及び指導支援情報表示装置
CN102945268A (zh) * 2012-10-25 2013-02-27 北京腾逸科技发展有限公司 产品特征评论挖掘方法及系统
TW201445335A (zh) * 2013-05-23 2014-12-01 Ruey-Shiang Shaw 文章之主觀意見管理方法,及其相關裝置與電腦程式產品
US20140365207A1 (en) * 2013-06-06 2014-12-11 Xerox Corporation Method and system for classifying reviewers' comments and recommending related actions in idea-generating social media platforms
CN104331394A (zh) * 2014-08-29 2015-02-04 南通大学 一种基于观点的文本分类方法
CN104462363A (zh) * 2014-12-08 2015-03-25 百度在线网络技术(北京)有限公司 评论点的展现方法和装置
CN104778209A (zh) * 2015-03-13 2015-07-15 国家计算机网络与信息安全管理中心 一种针对千万级规模新闻评论的观点挖掘方法
CN105224640A (zh) * 2015-09-25 2016-01-06 杭州朗和科技有限公司 一种提取观点的方法和设备
CN105447206A (zh) * 2016-01-05 2016-03-30 深圳市中易科技有限责任公司 基于word2vec算法的新评论对象识别方法及系统
CN106407236A (zh) * 2015-08-03 2017-02-15 北京众荟信息技术有限公司 一种面向点评数据的情感倾向性检测方法
CN106610990A (zh) * 2015-10-22 2017-05-03 北京国双科技有限公司 情感倾向性分析的方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010257347A (ja) * 2009-04-27 2010-11-11 Hitachi Ltd 指導支援システム及び指導支援情報表示装置
CN101702167A (zh) * 2009-11-03 2010-05-05 上海第二工业大学 一种基于互联网的模板抽取属性和评论词的方法
CN102945268A (zh) * 2012-10-25 2013-02-27 北京腾逸科技发展有限公司 产品特征评论挖掘方法及系统
TW201445335A (zh) * 2013-05-23 2014-12-01 Ruey-Shiang Shaw 文章之主觀意見管理方法,及其相關裝置與電腦程式產品
US20140365207A1 (en) * 2013-06-06 2014-12-11 Xerox Corporation Method and system for classifying reviewers' comments and recommending related actions in idea-generating social media platforms
CN104331394A (zh) * 2014-08-29 2015-02-04 南通大学 一种基于观点的文本分类方法
CN104462363A (zh) * 2014-12-08 2015-03-25 百度在线网络技术(北京)有限公司 评论点的展现方法和装置
CN104778209A (zh) * 2015-03-13 2015-07-15 国家计算机网络与信息安全管理中心 一种针对千万级规模新闻评论的观点挖掘方法
CN106407236A (zh) * 2015-08-03 2017-02-15 北京众荟信息技术有限公司 一种面向点评数据的情感倾向性检测方法
CN105224640A (zh) * 2015-09-25 2016-01-06 杭州朗和科技有限公司 一种提取观点的方法和设备
CN106610990A (zh) * 2015-10-22 2017-05-03 北京国双科技有限公司 情感倾向性分析的方法及装置
CN105447206A (zh) * 2016-01-05 2016-03-30 深圳市中易科技有限责任公司 基于word2vec算法的新评论对象识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨江等: "基于主题情感句的汉语评论文倾向性分析", 《计算机应用研究》 *
谭文斌: "基于产品属性的评论语句聚类分析算法", 《贵州科学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754352A (zh) * 2020-06-22 2020-10-09 平安资产管理有限责任公司 一种观点语句正确性的判断方法、装置、设备和存储介质
CN111914536A (zh) * 2020-08-06 2020-11-10 北京嘀嘀无限科技发展有限公司 观点分析方法、装置、设备及存储介质
CN111914536B (zh) * 2020-08-06 2021-12-17 北京嘀嘀无限科技发展有限公司 观点分析方法、装置、设备及存储介质
CN113220885A (zh) * 2021-05-21 2021-08-06 支付宝(杭州)信息技术有限公司 一种文本处理方法和系统
CN113282754A (zh) * 2021-06-10 2021-08-20 北京中科闻歌科技股份有限公司 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN117131161A (zh) * 2023-10-24 2023-11-28 北京社会管理职业学院(民政部培训中心) 一种电动轮椅用户需求提取方法、系统及电子设备

Also Published As

Publication number Publication date
CN110738046B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN110738046A (zh) 观点抽取方法及装置
CN106919661B (zh) 一种情感类型识别方法及相关装置
AU2017243270B2 (en) Method and device for extracting core words from commodity short text
CN109145299B (zh) 一种文本相似度确定方法、装置、设备及存储介质
CN105912625B (zh) 一种面向链接数据的实体分类方法和系统
WO2020147395A1 (zh) 基于情感的文本分类处理方法、装置和计算机设备
TWI689825B (zh) 一種文件品質指標獲取方法及裝置
CN108897723B (zh) 场景对话文本识别方法、装置以及终端
CN105956179B (zh) 数据过滤方法及装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
US20160336005A1 (en) Method and apparatus for speech-based information push
CN108959247B (zh) 一种数据处理方法、服务器及计算机可读介质
CN108009297B (zh) 基于自然语言处理的文本情感分析方法与系统
CN105095415B (zh) 网络情绪的确定方法和装置
CN106776566B (zh) 情感词汇的识别方法及装置
CN112507704B (zh) 多意图识别方法、装置、设备及存储介质
CN104915420B (zh) 知识库数据处理方法及系统
CN109508373A (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
CN107704869B (zh) 一种语料数据抽样方法及模型训练方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
TWI749349B (zh) 文本還原方法、裝置及電子設備與電腦可讀儲存媒體
US20230153527A1 (en) System and method for infusing knowledge graphs and language models for natural language sentence pair applications
CN111475651A (zh) 文本分类方法、计算设备及计算机存储介质
US20200073889A1 (en) Database creation apparatus and search system
CN110750626B (zh) 一种基于场景的任务驱动的多轮对话方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant