CN115794988A - 用于提取文本的观点的方法、装置以及计算机存储介质 - Google Patents
用于提取文本的观点的方法、装置以及计算机存储介质 Download PDFInfo
- Publication number
- CN115794988A CN115794988A CN202211112203.0A CN202211112203A CN115794988A CN 115794988 A CN115794988 A CN 115794988A CN 202211112203 A CN202211112203 A CN 202211112203A CN 115794988 A CN115794988 A CN 115794988A
- Authority
- CN
- China
- Prior art keywords
- text
- emotional
- evaluation
- emotion
- tendency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000002996 emotional effect Effects 0.000 claims abstract description 161
- 230000008451 emotion Effects 0.000 claims abstract description 113
- 238000011156 evaluation Methods 0.000 claims description 182
- 238000004590 computer program Methods 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 9
- 230000000692 anti-sense effect Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种用于提取文本的观点的方法、装置以及计算机存储介质。该方法包括:获取文本;对文本进行句法分析,以得到文本的观点和第一情感倾向;利用情感分析模型对文本进行情感倾向分析,以得到文本的第二情感倾向;以及基于第一情感倾向和第二情感倾向的比较结果对观点进行标记。通过上述方式,本申请结合句法分析和情感分析模型提取文本的观点,提高了观点提取的准确率和速度。
Description
技术领域
本申请涉及自然语言处理领域,尤其涉及一种用于提取文本的观点的方法、装置以及计算机存储介质。
背景技术
随着技术和基础设施的进步,依托于电商平台的购物活动越来越频繁。在购物活动后,顾客往往在电商平台上对商品进行评价,由此产生的大量评价文本对于电商平台、网店和商品生产商都具有很大的价值。例如,这些评价可帮助商品生产商采集用户需求和产品质量信息反馈,以改进其产品以更好地满足市场需求。这些评价也可帮助商家维护其口碑信誉,预测顾客的需求变化,控制存货,提高销售率等。另外,这些评价还可帮助平台获取用户的购物体验以及指导网站改进其服务。然而,每天在电商平台上产生的评价文本数量极其庞大,如何高效、准确地从大量的电商评价文本中提取有用的信息尤为重要。
发明内容
本申请提供一种用于提取文本的观点的方法、装置以及计算机存储介质,以解决现有技术中从电商评价文本中提取观点信息错误率高的问题。
为解决上述问题,本申请所采用的一个技术方案是:提供一种用于提取文本的观点的方法。该方法包括:获取文本;对文本进行句法分析,以得到文本的观点和第一情感倾向;利用情感分析模型对文本进行情感倾向分析,以得到文本的第二情感倾向;以及基于第一情感倾向和第二情感倾向的比较结果对观点进行标记。
为解决上述问题,本申请所采用的另一个技术方案是:提供一种用于提取文本的观点的装置。该装置包括文本获取模块、句法分析模块、情感分析模块以及观点标记模块。文本获取模块配置成获取文本。句法分析模块配置成对文本进行句法分析,以得到文本的观点和第一情感倾向。情感分析模块配置成利用情感分析模型对文本进行情感倾向分析,以得到文本的第二情感倾向。观点标记模块配置成基于第一情感倾向和第二情感倾向的比较结果对观点进行标记。
为解决上述问题,本申请所采用的又一技术方案是:提供一种用于提取文本的观点的装置。该装置包括处理器和存储器。存储器中存储有计算机程序。处理器配置成执行计算机程序以实现上述用于提取文本的观点的方法。
为解决上述问题,本申请所采用的又一技术方案是:提供一种计算机存储介质。该计算机存储介质存储有计算机程序。计算机程序被处理器执行时实现上述用于提取文本的观点的方法。
区别于现有技术,在本申请中,对文本进行句法分析,得到文本的观点和第一情感倾向,利用情感分析模型对文本进行情感倾向分析,以得到文本的第二情感倾向,基于第一情感倾向和第二情感倾向的比较结果对观点进行标记。通过该方法,本申请结合句法分析和情感分析模型提取评价文本的观点,提高了观点提取的准确率和速度。
附图说明
为更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出根据本申请一实施例用于提取文本的观点的方法的流程图。
图2示出根据本申请一实施例图1中的步骤S12的流程图。
图3示出根据本申请一实施例评价文本的依存关系树的示意图。
图4示出根据本申请一实施例图2中的步骤S24的流程图。
图5示出根据本申请又一实施例图1中的步骤S12的流程图。
图6示出根据本申请一实施例图1中的步骤S14的流程图。
图7示出根据本申请一实施例文本观点提取装置的结构示意图。
图8示出根据本申请另一实施例文本观点提取装置的结构示意图。
图9示出根据本申请一实施例计算机存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请的发明人在长期的研究中发现,与一般的文本不同,电商网站中的评价并不是精心创作的文本。这些评价往往比较口语化,现有的自然语言分析模型在分析这些电商评价时,往往会出现比较多的错误。
具体的,对于来自电商平台的日文评价,现有的自然语言分析模型在处理的时候正确率更低。这是因为,一方面,日语中存在大量没有主语的句子。在日语的文语中,无主语的句子可占到四五成。而在口语中,无主语句子的占比更高,例如高达七成至八成。在电商评价中,这种情况更加严重。由于日本人含蓄的特点,日本人在表达感情和形容词的时候,往往会比较隐晦,更喜欢省略对象和主语。这给现有模型提取或自动抓取日语电商评价中的观点造成了极大的困难。另外,在一些情形中,日文用户可能借助于希望、愿望的形式表达自己的观点。现有的自然语言分析模型在自动提取观点的时候往往会错误或相反的理解用户的意思。
对此,本申请的发明人提出了一种尤其用于提取日文电商评价文本中的观点的方法及其装置和计算机可读存储介质。
具体请参阅图1,图1示出根据本申请一实施例用于提取文本的观点的方法的流程图。本实施例用于提取文本的观点的方法包括如下步骤S11-S14。
步骤S11:获取文本。
具体的,文本为从网站,尤其是从电商平台网站上抓取的用户评价或评论。这些用户评价可以为由各种语言呈现的用户评价。所述获取文本的步骤还包括利用语言种类识别工具对文本进行语言种类识别并标记。
优选的,所获取的文本为从电商平台获取的日文评价文本。每一个日文评价文本包括同一个用户在同一时间对同一商品所发布的评价文本。每一个评价文本可例如包括多个句子。本申请不限制每个评价文本中的句子数目。
在一些实施例中,同一用户可在不同时间对同一商品发布了不同的评价。例如,用户在购买商品后对该商品发布了第一次评价,在一段时间后又对该商品发布了追加评价。该第一次评价和该追加评价可以被归入不同的评价文本。但是发布时间在前的评价文本,例如第一次评价,可以被标记为与时间在后的评价文本(例如,追加评价)对应的背景文本。
在一些实施例中,一个用户可对另一个用户的评价进行评价。该一个用户的评价和该另一个用户的评价可被视为不同的评价文本。但是该另一个用户的评价可被标记为该一个用户的评价的背景文本。
在一些实施例中,一个用户可对另一个用户的问题进行答复。该另一个用户的问题和该一个用户的答复可被合并为一个评价文本。此时,该评价文本表现为问题加答复的评价文本形式。
在一些实施例中,可对所获得的文本进行过滤操作和/或预处理操作。
具体的,过滤操作可包括,从所获取的文本中过滤掉水军评价、无关性评价等。在一些电商平台的商品评价中,往往存在大量由某一方发布的大量无关评价或水军评价,为了提取真实有效的顾客评价信息,电商平台或商家自己可基于发布评价的IP地址等过滤掉这些无关评价或水军评价。
具体的,预处理操作可包括无用符号和/或停用词过滤等。通过该操作,可从评价文本中移除无用的符号和/或停用词。本申请可通过查询专门的无用符号词典、停用词词典等确定评价文本中的无用符号和/或停用词,进而从这些文本中移除这些无用符号和/或停用词。
具体的,预处理操作还包括对文本进行分句和/或分词(tokenization)操作。通过分句操作,每个评价文本被分成一个个独立的句子。本申请例如可采用自然语言处理包Spacy对评价文本进行分句操作。而经过分词操作,每个句子被分割成一个个独立的词元。本申请可以利用诸如字节对编码(BPE,BytePair Encoding)算法、WordPiece模型、SentencePiece模型等对每个句子进行分词操作。可选的,分词操作还包括为每个独立的词元标注词性。作为示例,一个日文评价句子“このエアコンのコストパフォーマンスは高くありません”分词后的结果可以为“この(限定词)エアコン(名词)の(连词)コスト(名词)パフォーマンス(名词)は(连词)高く(形容词)ありません(形容词)”。经过分词后的句子被分成一个个的词元。作为示例,每个词元的词性也可被标注出来。
步骤S12:对文本进行句法分析,以得到文本的观点和第一情感倾向。
具体的,对从步骤S11中获取的,经过过滤操作、预处理操作、分句操作以及分词操作中的至少一种操作之后的文本中的每个句子进行句法分析,以得到该文本的观点和对应的第一情感倾向。其中,情感倾向包括正面和负面两种。正面评价也称为积极评价。负面评价也称消极评价。
句法分析(Parsing)是指对句子中的词语语法功能进行分析,也就是句子成分分析。一般而言,句法是研究词和词如何组成正确的句子。句法分析包括成分分析和依存分析。其中,成分分析将一些语法功能相同或相似的词组合成一个单元,如名词短语等。词可以构成短语。在短语中,简单的短语可进一步构成复杂的短语。最终,短语可构成句子。而依存句法分析重点并不在于短语成分,而是直接关注词以及词与词之间的依存关系。依存关系是指两个词之间的限定和/或修饰关系。在一个句子中,如果一个词修饰或限定另一个词,则用于修饰的词可被称为从属词,被修饰的词可被称为支配词。
在一些实施例中,句法分析可通过句法分析模型来实现。句法分析模型可包括句法路径模板库。句法路径模板库可包括多个句法路径模板或句法结构模板。在本申请中,这些句法路径模板可包括评价对象和评价情感词之间的依存关系。
在一些实施例中,评价对象是指当前句子所评价的对象。在电商平台评价的情形中,评价对象一般是指商品或者商品的属性。商品的属性例如包括商品的质量、价格、美观程度。可选的,评价对象也可指的是服务类商品。可选的,商品的属性也可包括与商品相关的服务,例如商品的售后服务、商品的运输速度等。
在一些实施例中,评价情感词是用于评价上述评价对象的词,包括形容词、名词、动名词等各种词。
具体请参阅图2,图2示出根据本申请一实施例的步骤S12的流程图。本实施例用于对文本进行句法分析,以得到文本的观点和第一情感倾向的方法包括如下步骤S21-S24。
步骤S21:获取文本中的评价情感词。
举例而言,对于上文中评价语句,“この(限定词)エアコン(名词)の(连词)コスト(名词)パフォーマンス(名词)は(连词)高く(形容词)ありません(形容词)”,通过参考分词操作得到的每个词的词性,本申请可确定该句中的形容词“高く”为评价情感词。评价情感词也可以不是形容词,而是诸如名词等表达情感、评价等的词,本申请对此不作限制。
在一些实施例中,本申请可通过参考评价情感词库来识别评价文本中的评价情感词。该评价情感词库可包括用户所总结的评价情感词。该评价情感词库可进一步包括每个评价情感词的词频或评分。该评分可表示该评价情感词在具体的评价文本中被用作评价情感词的概率。用户可在实践中为评价情感词库不断增加新的评价情感词,和/或更新每个评价情感词的词频和/或评分。
在本申请的句法分析中,评价情感词可用作句子的依存关系中的核心词。本申请以评价情感词为中心构建句子的依存关系树。
步骤S22:对文本进行句法分析,以得到文本的句法路径。
具体的,在本申请中,以评价情感词为核心构建文本的句法路径。
优选的,此处所述的句法路径尤其指句子中不同词元之间的依存关系,尤其是指句子中的不同词与上述评价情感词之间的依存关系。
例如,参考图3,图3示出上述评价文本“この(限定词)エアコン(名词)の(连词)コスト(名词)パフォーマンス(名词)は(连词)高く(形容词)ありません(形容词)”的依存关系树。如图3所示,词元“高く”用作评价情感词。词元“高く”(高的)与“ありません”(不)之间构成否定的限定关系,“ありません”用于否定“高く”。词元“高く”与“パフォーマンス”构成修饰的限定关系,“高く”用于限定“パフォーマンス”。“コスト”(成本)与“パフォーマンス”(性能)构成复合限定关系,“コスト”与“パフォーマンス”可构成一个复合词。“エアコン”与“コスト”构成限定关系,具体的,“コスト”限定“エアコン”。“この”与“エアコン”构成限定关系,“この”用于限定“エアコン”。在本申请观点提取的应用中,诸如“この”的词也可以被当成停用词在上述步骤S11中过滤掉,其在图3中未示出。
如上文所述,该句法分析可通过句法分析模型来实现。句法分析模型可包括总结出来的多个句法路径模板。本申请的句法路径模板可标记出评价情感词和其对应的评价对象在该句法路径模板中的位置。本申请的句法路径模板可尤其标记出评价情感词和其对应的评价对象在该句法路径模板对应的依存关系树中的相对位置关系。
步骤S23:基于句法路径和评价情感词,得到文本中的评价对象。
在一些实施例中,若句子中的某个词与评价情感词的路径或者两者之间的相对位置关系符合句法路径模板库中的特定句法路径模板,则抽取该词作为评价对象。
在一些实施例中,句法路径以依存关系树的形式表现出来。
在一些实施例中,依存关系树以评价情感词为核心词,可在依存关系树中找到该评价情感词所修饰的名词或者动名词等作为评价对象。可选的,评价对象可以为沿依存关系树中的一条路径的几个词所构成的短语,如图3中左侧路径的几个词构成的短语“コストパフォーマンス”(性价比)。
在一些实施例中,当在当前的句子中没有找到评价对象时,可从该句之前的句子中搜索评价对象。尤其,当该句之前的句子为疑问句时,可从该疑问句中搜索评价对象。该疑问句可已经历上文中的句法路径分析。
在一些实施例中,当所分析的句子属于时间在后的评价文本,且在当前评价文本中没有找到评价对象时,可从发布时间在先的背景文本中搜索评价对象。
步骤S24:将评价对象和评价情感词组合为观点。
作为示例,对于上述日文评价句子“このエアコンのコストパフォーマンスは高くありません”,所提取的评价情感词为“高く”,对应的评价对象为“コストパフォーマンス”,该评价情感词和评价对象的组合“コストパフォーマンス高く”可以为观点。本申请并不限定具体的组合方式。所得到的观点可随后被存储在表格、数据库或其他类型的文件中。
具体请参阅图4,图4示出根据本申请一实施例的步骤S24的流程图。本实施例用于将评价对象和评价情感词组合为观点的方法包括如下步骤S41-S42。
步骤S41:基于句法路径,在文本中寻找与评价情感词搭配的否定词。在一些实施例中,在已经识别出句法路径的句子中,在评价情感词的前后寻找否定词。可选的,否定词与评价情感词之间的距离小于一定的距离阈值。可选的,否定词与评价情感词之间的距离是指否定词与评价情感词之间间隔的词元数目。例如,否定词与评价情感词直接相邻,两者之间间隔零个词元,对应的距离为0。否定词与评价情感词之间间隔n个词元,则对应的距离为n,其中n为大于等于0的整数。该距离阈值可根据具体的语言种类和具体应用场景设置,本申请对此不作限制。
在文本为日文电商评价的情形中,可在句子的末尾寻找否定助词或表示否定的词尾。可选的,可在评价情感词之前寻找诸如“未”“非”、“無”等表示否定的词。
步骤S42:响应于找到否定词,将评价对象、评价情感词和否定词组合为观点。
本领域技术人员应当理解,当存在多个否定词的情形中,若否定词为奇数个,则将评价对象、评价情感词和一个否定词组合为观点,若否定词为偶数个,则直接将评价对象和评价情感词组合为观点。
在一些实施例中,在存在奇数个否定词的情形中,将评价情感词替换为评价情感词的反义词。将评价对象和该反义词组合为观点。具体的,可从反义词表中获取某评价情感词的反义词。
具体请参阅图5,图5示出根据本申请一实施例的步骤S12的流程图。本实施例用于对文本进行句法分析,以得到文本的观点和第一情感倾向的方法包括如下步骤S51-S57。
步骤S51:获取文本中的评价情感词。该步骤类似于图2中的步骤S21,在此不再赘述。
步骤S52:对文本进行句法分析,以得到文本的句法路径。该步骤类似于图2中的步骤S22,在此不再赘述。
步骤S53:基于句法路径和评价情感词,得到文本中的评价对象。该步骤类似于图2中的步骤S23,在此不再赘述。
步骤S54:将评价对象和评价情感词组合为观点。该步骤类似于图2中的步骤S24,在此不再赘述。
步骤S55:基于评价情感词和评价对象,判断是否存在情感反转。
具体的,每个评价情感词可具有对应的情感倾向。此处的情感倾向可指的是正面或负面、积极或消极等二值化评价。例如,仅作为示例而非限制,“高”的情感倾向是正面的,一般代表正面评价,而“低”的情感倾向是负面的,一般代表负面评价。评价情感词的情感倾向可以是由用户指定的。例如,如上文所述的评价情感词库可包括每个情感评价词的规定情感倾向。
在一些实施例中,判断评价情感词和评价对象的组合是否反转了评价情感词的情感倾向。具体的,评价情感词和评价对象的组合的情感倾向与评价情感词本身所规定的情感倾向相反。例如,原本规定的评价情感词“高”的情感倾向是正面,当评价对象为“质量”时,评价情感词和评价对象的组合“质量高”是正面评价,此时不存在评价对象对评价情感词的情感反转。而当评价质量为“价格”时,评价情感词和评价对象的组合“价格高”是负面评价,这反转了评价情感词“高”的情感倾向,此时存在评价对象对评价情感词的情感反转。
在一些实施例中,可通过查询评价对象和评价情感词的匹配表或情感反转词汇匹配表,判断是否存在评价对象对评价情感词的情感反转。
在一些实施例中,当句子本身以希望或愿望的形式表达时,也可能存在该表达形式对评价情感词的情感反转。例如,当句子中的评价对象为“外观”,评价情感词为“漂亮”,同时句子中存在表示希望或愿望的词时,虽然评价对象和评价情感词组合“外观漂亮”是正面评价,但是句子真实表达的意思是“希望未来外观能漂亮”,而用户评价的时候“外观不漂亮”。即,句子中进一步存在该表达形式对评价对象和评价情感词组合的情感反转。在一些实施例中,当既存在评价对象对评价情感词的情感反转,又存在对评价对象和评价情感词组合的情感反转时,该句子存在对评价情感词的双重情感反转,此时,可视为句子本身总体上不存在情感反转。
步骤S56:响应于情感反转不存在,以评价情感词的情感倾向为第一情感倾向。
在一些实施例中,当情感反转不存在或视为不存在时,以评价情感词的情感倾向为第一情感倾向。该第一情感倾向包括正面和负面。
步骤S57:响应于情感反转存在,以与评价情感词的情感倾向相反的情感倾向为第一情感倾向。
具体的,当只存在评价对象和评价情感词的组合对评价情感词的情感反转,或者只存在例如以希望或愿望等表达的形式对该组合的情感反转时,可以以与评价情感词的情感倾向相反的情感倾向为第一情感倾向。此时,第一情感倾向为与正面的评价情感词相反的负面,或者为与负面的评价情感词相反的正面。
步骤S13:利用情感分析模型对文本进行情感倾向分析,以得到文本的第二情感倾向。
在一些实施例中,情感分析模型是神经网络模型。可利用标注好情感倾向的文本训练该情感分析模型。情感分析模型可例如基于Fasttext文本分类模型训练而成,本申请对此不作限制。Fasttext模型具有运行速度快,准确率较高,适合用于分析大量文本数据的特点。
情感分析模型可输出文本的第二情感倾向。该第二情感倾向可例如包括正面或负面、消极或积极等二值化评价。在一些实施例中,情感分析模型还可输出第二情感倾向所对应的置信度。置信度也称为可靠度、可信度、置信水平或置信系数,其表征该第二情感倾向的可信度。
步骤S14:基于第一情感倾向和第二情感倾向的比较结果对观点进行标记。
在一些实施例中,基于第一情感倾向和第二情感倾向的比较结果对观点进行标记是指,基于第一情感倾向和第二情感倾向的比较结果,判断观点的可靠性或准确性是否满足用户要求。例如,对观点进行标记可包括标记该观点是否需要人工修正或进一步确认。
在一些实施例中,基于第一情感倾向和第二情感倾向的比较结果对观点进行标记包括:响应于第一情感倾向和第二情感倾向不一致,将观点标记为第一状态;以及,响应于第一情感倾向和第二情感倾向一致,将观点标记为第二状态。其中,第一状态为表征观点需要修正或进一步确认的状态,第二状态为表征观点不需要修正或进一步确认的状态。
在一些实施例中,响应于观点被标记为第一状态,通知用户该文本的观点不可靠,需要修正或进一步确认。用户可以在接收到该通知后,人工提取该文本的观点和情感倾向。
在一些实施例中,与被标记为第一状态的观点对应的文本可以被用于改进上述句法分析模型。可选的,与被标记为第一状态的观点对应的文本可以被用于进一步训练上述情感分析模型,以改进情感分析模型的准确度。
进一步参考图6,图6示出根据本申请一实施例步骤S14的方法的流程图。如图6所示,基于第一情感倾向和第二情感倾向的比较结果对观点进行标记包括步骤S61-S66。
步骤S61:获取文本的第一情感倾向、第二情感倾向和对应的置信度。
具体的,获取如图1中的步骤S12-S13中所输出的第一情感倾向、第二情感倾向和对应的置信度。
步骤S62:判断第一情感倾向和第二情感倾向是否一致。
具体的,若第一情感倾向和第二情感倾向都为正面或负面,判断第一情感倾向和第二情感倾向一致。
具体的,若第一情感倾向为正面而第二情感倾向为负面,或者若第一情感倾向为负面而第二情感倾向为正面,则判断第一情感倾向和第二情感倾向不一致。
步骤S63:响应于第一情感倾向和第二情感倾向一致,判断第二情感倾向的置信度是否小于第一阈值α。若第二情感倾向的置信度小于第一阈值α,继续步骤S65,将观点标记为第一状态。若第二情感倾向的置信度大于等于第一阈值α,继续步骤S66,将观点评价为第二状态。
具体的,第一阈值α为范围在0和1之间的实数。第一阈值α的大小可以由用户根据具体应用场景设置和调整。在一些实施例中,第一阈值α的值可例如为0.8、0.9等类似值,本申请对此不作设置。
具体的,当第二情感倾向的置信度小于第一阈值α时,可以认为所预测的第二情感倾向不够可靠。此时,需要将对应的文本的观点标记为第一状态,以例如由用户人工分析。具体的,当第二情感倾向的置信度大于或等于第一阈值α时,可以认为所预测的第二情感倾向是可靠的,从而上述观点和对应的第一情感倾向可以作为最终结果。
在一些实施例中,可以根据人工分析结果调整第一阈值α的大小。例如,当人工分析的结果表明,被标记为第一状态的文本中占第一比例的文本的情感倾向等于第一情感倾向时,第一阈值α的数值过大,此时可降低第一阈值α的大小。该第一比例的大小可由用户设置,本申请对此不作限制。
步骤S64:响应于第一情感倾向和第二情感倾向不一致,判断第二情感倾向的置信度是否大于第二阈值β。若第二情感倾向的置信度大于第二阈值β,继续步骤S65,将观点标记为第一状态。若第二情感倾向的置信度小于等于第二阈值β,继续步骤S66,将观点评价为第二状态。
具体的,第二阈值β为范围在0和1之间的实数。第二阈值β的大小可以由用户根据具体应用场景设置和调整。在一些实施例中,第二阈值β的值可例如为0.5、0.6等类似值,本申请对此不作设置。
具体的,当第二情感倾向的置信度小于或等于第二阈值β时,可以认为所预测的第二情感倾向不够可靠。此时,可将对应的文本的观点标记为第二状态,从而上述观点和对应的第一情感倾向可以作为最终结果。反之,将对应的文本的观点标记为第一状态,以例如由用户进行人工分析。
在一些实施例中,可以根据人工分析结果定期调整第二阈值β的大小。
在本申请中,对于句法分析和情感分析模块两者输出的情感倾向不一致的结果,需要人工进行调整,使得最终结果更加符合实际情况,而人工修正的结果又可以为句法分析模型和情感分析模型的调整和优化提供参考。
步骤S65:将观点标记为第一状态。
具体的,第一状态为上文中所述的第一状态。
步骤S66:将观点评价为第二状态。
具体的,第二状态为上文中所述的第二状态。
如图7所示,本申请还提供一种用于提取文本的观点的装置700,其在下文中也被称为文本观点提取装置700。该文本观点提取装置700包括文本获取模块701、句法分析模块702、情感分析模块703以及观点标记模块704。
具体的,文本获取模块701配置成获取文本。句法分析模块702配置成对文本进行句法分析,以得到文本的观点和第一情感倾向。情感分析模块703配置成利用情感分析模型对文本进行情感倾向分析,以得到文本的第二情感倾向。观点标记模块704配置成基于第一情感倾向和第二情感倾向的比较结果对观点进行标记。
上述用于提取文本的观点的方法一般由一种文本观点提取装置实现,因而本发明还提出一种文本观点提取装置。请参阅图8,图8是本发明文本观点提取装置800一实施例的结构示意图。本实施例文本观点提取装置800包括处理器81和存储器82。存储器82中存储有计算机程序。处理器81用于执行计算机程序以实现如上述代码国际化的方法的步骤。
本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来。该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。当作为独立的软件产品销售或使用时,上述计算机软件产品可存储在计算机存储介质中,因而本发明提出一种计算机存储介质。请参阅图9,图9是本发明计算机存储介质一实施例的结构示意图。本实施例计算机存储介质900中存储有计算机程序91。该计算机程序91当被处理器执行时实现上述用于提取文本的观点的方法的步骤。
该计算机存储介质900具体可以为U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory,)、磁碟或者光盘等可以存储计算机程序的介质,或者也可以为存储有该计算机程序的服务器,该服务器可将存储的计算机程序发送给其他设备运行,或者也可以自运行该存储的计算机程序。该计算机存储介质900从物理实体上来看,可以为多个实体的组合,例如多个服务器、服务器加存储器、或存储器加移动硬盘等多种组合方式。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,方式利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (12)
1.一种用于提取文本的观点的方法,其特征在于,包括:
获取所述文本;
对所述文本进行句法分析,以得到所述文本的观点和第一情感倾向;
利用情感分析模型对所述文本进行情感倾向分析,以得到所述文本的第二情感倾向;以及
基于所述第一情感倾向和所述第二情感倾向的比较结果对所述观点进行标记。
2.根据权利要求1所述的方法,其特征在于,
所述对所述文本进行句法分析,以得到所述文本的观点和第一情感倾向的步骤包括:
获取所述文本中的评价情感词;
对所述文本进行句法分析,以得到所述文本的句法路径;
基于所述句法路径和所述评价情感词,得到所述文本中的评价对象;
将所述评价对象和所述评价情感词组合为所述文本的观点。
3.根据权利要求2所述的方法,其特征在于,
所述将所述评价对象和所述评价情感词组合为所述文本的观点的步骤包括:
基于所述句法路径,在所述文本中寻找与所述评价情感词搭配的否定词;
响应于找到所述否定词,将所述评价对象、所述评价情感词和所述否定词组合为所述文本的观点。
4.根据权利要求3所述的方法,其特征在于,
所述响应于找到所述否定词,将所述评价对象、所述评价情感词和所述否定词组合为所述文本的观点的步骤还包括:
将所述评价情感词替换为所述评价情感词的反义词;
将所述评价对象和所述反义词组合为所述文本的观点。
5.根据权利要求2所述的方法,其特征在于,
所述对所述文本进行句法分析,以得到所述文本的观点和第一情感倾向的步骤还包括:
基于所述评价情感词和所述评价对象,判断是否存在情感反转,
响应于所述情感反转不存在,以所述评价情感词的情感倾向为所述第一情感倾向;以及
响应于所述情感反转存在,以与所述评价情感词的情感倾向相反的情感倾向为所述第一情感倾向,
其中,所述第一情感倾向包括正面和负面。
6.根据权利要求1所述的方法,其特征在于,
所述情感分析模型是神经网络模型。
7.根据权利要求1所述的方法,其特征在于,还包括:
所述基于所述第一情感倾向和所述第二情感倾向的比较结果对所述观点进行标记包括:
响应于所述第一情感倾向和所述第二情感倾向不一致,将所述观点标记为第一状态;以及
响应于所述第一情感倾向和所述第二情感倾向一致,将所述观点标记为第二状态。
8.根据权利要求1所述的方法,其特征在于,所述利用情感分析模型对所述文本进行情感倾向分析,以得到所述文本的第二情感倾向的步骤进一步包括:
获取所述第二情感倾向所对应的置信度;
所述基于所述第一情感倾向和所述第二情感倾向的比较结果对所述观点进行标记包括:
响应于所述第一情感倾向和所述第二情感倾向一致,但所述置信度小于第一阈值,将所述观点标记为第一状态;以及
响应于所述第一情感倾向和所述第二情感倾向一致,且所述置信度大于或等于所述第一阈值,将所述观点标记为第二状态。
9.根据权利要求8所述的方法,其特征在于,所述基于所述第一情感倾向和所述第二情感倾向的比较结果对所述观点进行标记的步骤进一步包括:
响应于所述第一情感倾向和所述第二情感倾向不一致,且所述置信度大于第二阈值,将所述观点标记为第一状态;以及
响应于所述第一情感倾向和所述第二情感倾向不一致,且所述置信度小于或等于所述第二阈值,将所述观点标记为第二状态。
10.一种文本观点提取装置,其特征在于,所述装置包括:
文本获取模块,配置成获取所述文本;
句法分析模块,配置成对所述文本进行句法分析,以得到所述文本的观点和第一情感倾向;
情感分析模块,配置成利用情感分析模型对所述文本进行情感倾向分析,以得到所述文本的第二情感倾向;以及
观点标记模块,配置成基于所述第一情感倾向和所述第二情感倾向的比较结果对所述观点进行标记。
11.一种文本观点提取装置,其特征在于,所述装置包括处理器和存储器;所述存储器中存储有计算机程序,所述处理器配置成执行所述计算机程序以实现如权利要求1-9中任一项所述方法的步骤。
12.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211112203.0A CN115794988A (zh) | 2022-09-13 | 2022-09-13 | 用于提取文本的观点的方法、装置以及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211112203.0A CN115794988A (zh) | 2022-09-13 | 2022-09-13 | 用于提取文本的观点的方法、装置以及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115794988A true CN115794988A (zh) | 2023-03-14 |
Family
ID=85431936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211112203.0A Pending CN115794988A (zh) | 2022-09-13 | 2022-09-13 | 用于提取文本的观点的方法、装置以及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115794988A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN103995803A (zh) * | 2014-04-25 | 2014-08-20 | 西北工业大学 | 一种细粒度文本情感分析方法 |
CN104881402A (zh) * | 2015-06-02 | 2015-09-02 | 北京京东尚科信息技术有限公司 | 中文网络话题评论文本语义倾向分析的方法及装置 |
CN108804612A (zh) * | 2018-05-30 | 2018-11-13 | 武汉烽火普天信息技术有限公司 | 一种基于对偶神经网络模型的文本情感分类方法 |
CN109858026A (zh) * | 2019-01-17 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 文本情感分析方法、装置、计算机设备及存储介质 |
CN110110083A (zh) * | 2019-04-17 | 2019-08-09 | 华东理工大学 | 一种文本的情感分类方法、装置、设备及存储介质 |
CN110362833A (zh) * | 2019-07-22 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种基于文本的情感分析方法及相关装置 |
CN112199500A (zh) * | 2020-09-30 | 2021-01-08 | 北京猎豹移动科技有限公司 | 针对评论的情感倾向识别方法、装置及电子设备 |
CN112580337A (zh) * | 2020-12-29 | 2021-03-30 | 南京航空航天大学 | 基于数据增强的情感分类模型及情感分类方法 |
CN113590738A (zh) * | 2020-12-09 | 2021-11-02 | 天博电子信息科技有限公司 | 一种基于内容与情感的网络敏感信息的检测方法 |
CN115659961A (zh) * | 2022-11-01 | 2023-01-31 | 广东美云智数科技有限公司 | 用于提取文本观点的方法、装置以及计算机存储介质 |
-
2022
- 2022-09-13 CN CN202211112203.0A patent/CN115794988A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN103995803A (zh) * | 2014-04-25 | 2014-08-20 | 西北工业大学 | 一种细粒度文本情感分析方法 |
CN104881402A (zh) * | 2015-06-02 | 2015-09-02 | 北京京东尚科信息技术有限公司 | 中文网络话题评论文本语义倾向分析的方法及装置 |
CN108804612A (zh) * | 2018-05-30 | 2018-11-13 | 武汉烽火普天信息技术有限公司 | 一种基于对偶神经网络模型的文本情感分类方法 |
CN109858026A (zh) * | 2019-01-17 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 文本情感分析方法、装置、计算机设备及存储介质 |
CN110110083A (zh) * | 2019-04-17 | 2019-08-09 | 华东理工大学 | 一种文本的情感分类方法、装置、设备及存储介质 |
CN110362833A (zh) * | 2019-07-22 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种基于文本的情感分析方法及相关装置 |
CN112199500A (zh) * | 2020-09-30 | 2021-01-08 | 北京猎豹移动科技有限公司 | 针对评论的情感倾向识别方法、装置及电子设备 |
CN113590738A (zh) * | 2020-12-09 | 2021-11-02 | 天博电子信息科技有限公司 | 一种基于内容与情感的网络敏感信息的检测方法 |
CN112580337A (zh) * | 2020-12-29 | 2021-03-30 | 南京航空航天大学 | 基于数据增强的情感分类模型及情感分类方法 |
CN115659961A (zh) * | 2022-11-01 | 2023-01-31 | 广东美云智数科技有限公司 | 用于提取文本观点的方法、装置以及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7269544B2 (en) | System and method for identifying special word usage in a document | |
US11561682B1 (en) | User interface for use with a search engine for searching financial related documents | |
US20130159277A1 (en) | Target based indexing of micro-blog content | |
CN110298029B (zh) | 基于用户语料的好友推荐方法、装置、设备及介质 | |
Sun et al. | Pre-processing online financial text for sentiment classification: A natural language processing approach | |
CN114329225B (zh) | 基于搜索语句的搜索方法、装置、设备及存储介质 | |
CN111581990A (zh) | 跨境交易撮合匹配方法及装置 | |
Petz et al. | On text preprocessing for opinion mining outside of laboratory environments | |
CN111966832A (zh) | 评价对象的提取方法、装置和电子设备 | |
CN113051380A (zh) | 信息生成方法、装置、电子设备和存储介质 | |
CN111651559A (zh) | 一种基于事件抽取的社交网络用户关系抽取方法 | |
Yamaguchi et al. | Team hitachi@ automin 2021: Reference-free automatic minuting pipeline with argument structure construction over topic-based summarization | |
US11625536B2 (en) | System and method for identification and profiling adverse events | |
Minnich et al. | ClearView: Data cleaning for online review mining | |
CN115794988A (zh) | 用于提取文本的观点的方法、装置以及计算机存储介质 | |
CN115659961A (zh) | 用于提取文本观点的方法、装置以及计算机存储介质 | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN110826313A (zh) | 一种信息提取方法、电子设备及计算机可读存储介质 | |
St Chifu et al. | Web harvesting and sentiment analysis of consumer feedback | |
Rahamatallah et al. | Constructing opinion mining model of sudanese telecom products | |
CN116308635B (zh) | 塑化产业报价结构化方法、装置、设备及存储介质 | |
Alazba et al. | Saudi Stock Market Sentiment Analysis using Twitter Data. | |
Chavan et al. | Sentiment analysis of movie ratings system | |
US20230325606A1 (en) | Method for extracting information from an unstructured data source |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 528311 3rd Floor, Building 5, Midea Global Innovation Center, Industrial Avenue, Beijiao Town, Shunde District, Foshan City, Guangdong Province Applicant after: Meiyun Zhishu Technology Co.,Ltd. Address before: 528311 3rd Floor, Building 5, Midea Global Innovation Center, Industrial Avenue, Beijiao Town, Shunde District, Foshan City, Guangdong Province Applicant before: Guangdong Meiyun Zhishu Technology Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230314 |