CN110750983A - 语料识别方法、装置、设备及计算机可读存储介质 - Google Patents

语料识别方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110750983A
CN110750983A CN201910999338.5A CN201910999338A CN110750983A CN 110750983 A CN110750983 A CN 110750983A CN 201910999338 A CN201910999338 A CN 201910999338A CN 110750983 A CN110750983 A CN 110750983A
Authority
CN
China
Prior art keywords
corpus
recognized
feature
characteristic
participles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910999338.5A
Other languages
English (en)
Inventor
方文其
徐为恺
杨杨
江旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201910999338.5A priority Critical patent/CN110750983A/zh
Publication of CN110750983A publication Critical patent/CN110750983A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语料识别方法、装置、设备及计算机可读存储介质,涉及金融科技领域,该方法包括步骤:当获取到待识别语料后,检测所述待识别语料中是否存在预设情感文本库中的文本;若检测到所述待识别语料中未存在所述情感文本库中的文本,则对所述待识别语料进行预处理,得到所述待识别语料的语料分词;对所述语料分词进行向量化,得到所述语料分词对应的待识别特征向量;将所述待识别特征向量输入至预存的语料分类模型中,得到所述待识别语料的识别结果。本发明提高了观点句识别的准确率和识别效率。

Description

语料识别方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及金融科技(Fintech)的自然语言处理技术领域,尤其涉及一种语料识别方法、装置、设备及计算机可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业在自然语言处理技术领域,特别是自然语言的情感分析领域提出了更高的要求。
目前常用的自然语言情感分析方法为:①建立一个情感词库;②计算需要确定情感属性的语句中所包含情感词的个数,记该语句S中包含情感词的个数记为Count(S);③当确定Count(S)大于或者等于某个设定值时,确定该语句属于观点句;当确定Count(S)小于设定值时,确定该语句属于非观点,其中,观点句是在表达的过程中带有某种情感和观点的句子,非观点句是对客观存在的事物的某种客观描述。
上述自然语句情感分析方法的观点句识别效果依赖于情感词库的规模和质量,因此相同的情感词在不同的句子中可能体现为观点句,也可能体现为非观点句。由此可知,现有的自然语言中语料情感识别准确率低下。
发明内容
本发明的主要目的在于提供一种语料识别方法、装置、设备及计算机可读存储介质,旨在解决现有的自然语言中语料情感识别准确率低下的技术问题。
为实现上述目的,本发明提供一种语料识别方法,所述语料识别方法包括步骤:
当获取到待识别语料后,检测所述待识别语料中是否存在预设情感文本库中的文本;
若检测到所述待识别语料中未存在所述情感文本库中的文本,则对所述待识别语料进行预处理,得到所述待识别语料的语料分词;
对所述语料分词进行向量化,得到所述语料分词对应的待识别特征向量;
将所述待识别特征向量输入至预存的语料分类模型中,得到所述待识别语料的识别结果。
优选地,所述若检测到所述待识别语料中未存在所述情感文本库中的文本,则对所述待识别语料进行预处理,得到所述待识别语料的语料分词的步骤包括:
若检测到所述待识别语料中未存在所述情感文本库中的文本,则对所述待识别语料进行分词操作,得到所述待识别语料对应的原始分词;
对所述原始分词进行词性标注,得到词性标注后的语料分词。
优选地,所述对所述语料分词进行向量化,得到所述语料分析对应的待识别特征向量的步骤包括:
将所述语料分词与预设特征词汇进行对比,以确定各个所述语料分词对应的特征项;
计算各个特征项对应的特征权重,根据所述特征权重确定所述语料分词对应的待识别特征向量。
优选地,所述特征项包括情感特性特征项,计算所述情感特性特征项的特征权重的步骤包括:
计算所述情感特性特征项对应的语料分词与预设情感词库中各个情感词之间的语义相似度;
计算所述语义相似度的相似度平均值,将所述相似度平均值确定为所述情感特性特征项对应的特征权重。
优选地,所述特征项包括动词情感词特征项、形容情感词特征项、副词特征项、否定词特征项和情感标点符号特征项,所述计算各个特征项对应的特征权重的步骤包括:
检测所述语料分词中是否存在各个特征项对应的特征词汇;
若所述语料分词中存在特征项对应的特征词汇,则确定存在所述特征词汇的特征项的特征权重为第一数值;
若所述语料分词中未存在特征项对应的特征词汇,则确定未存在所述特征词汇的特征项的特征权重为第二数值。
优选地,所述将所述待识别特征向量输入至预存的语料分类模型中,得到所述待识别语料的识别结果的步骤之前,还包括:
获取训练语料,对所述训练语料进行预处理,得到所述训练语料对应的训练分词;
对所述训练分词进行向量化,得到所述训练语料对应的训练特征向量;
将所述训练特征向量输入预设的支持向量机SVM分类器中,以得到语料分类模型,并存储所述语料分类模型。
优先地,所述当获取到待识别语料后,检测所述待识别语料中是否存在预设情感文本库中的文本的步骤之后,还包括:
若检测到所述待识别语料中存在所述情感文本库中的文本,则确定所述待识别语料属于观点句。
优选地,所述将所述待识别特征向量输入至预存的语料分类模型中,得到所述待识别语料的识别结果的步骤包括:
将所述待识别特征向量输入预存的语料分类模型中,得到所述语料分类模型输出的结果标识;
若所述结果标识为观点句标识,则确定所述待识别语料属于观点句;
若所述结果标识为非观点句标识,则确定所述待识别语料属于非观点句。
此外,为实现上述目的,本发明还提供一种语料识别装置,所述语料识别装置包括:
检测模块,用于当获取到待识别语料后,检测所述待识别语料中是否存在预设情感文本库中的文本;
预处理模块,用于若检测到所述待识别语料中未存在所述情感文本库中的文本,则对所述待识别语料进行预处理,得到所述待识别语料的语料分词;
向量化模块,用于对所述语料分词进行向量化,得到所述语料分词对应的待识别特征向量;
输入模块,用于将所述待识别特征向量输入至预存的语料分类模型中,得到所述待识别语料的识别结果。
此外,为实现上述目的,本发明还提供一种语料识别设备,所述语料识别设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的语料识别程序,所述语料识别程序被所述处理器执行时实现如上所述的语料识别方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语料识别程序,所述语料识别程序被处理器执行时实现如上所述的语料识别方法的步骤。
本发明通过在获取到待识别语料后,先通过预设的情感文本库来识别待语料是否为观点句,若确定待识别语料不是观点句,然后通过预先训练好的语料分类模型来识别待识别语料是观点句还是非观点句,提高了观点句识别的准确率和识别效率。进一步地,将待识别语料的情感特性特征项、情感标点符号特征项、动词情感词特征项、形容情感词特征项、副词特征项和否定词特征项作为观点句的识别特征项,降低特征项的维度,在不影响观点句识别结果准确率的情况下,进一步地提高了待识别语料观点句的识别效率。
附图说明
图1是本发明语料识别方法第一实施例的流程示意图;
图2是本发明语料识别方法第二实施例的流程示意图;
图3是本发明语料识别装置较佳实施例的功能示意图模块图;
图4是本发明实施例方案涉及的硬件运行环境的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种语料识别方法,参照图1,图1为本发明语料识别方法第一实施例的流程示意图。
本发明实施例提供了语料识别方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
语料识别方法应用于语料识别设备中,语料识别设备可以包括诸如平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)等移动终端,以及诸如数字TV、台式计算机等固定终端,该语料识别方法也可应用于服务器中。在日志分类规则的生成方法的各个实施例中,为了便于描述,省略执行主体进行阐述各个实施例。语料识别方法包括:
步骤S10,当获取到待识别语料后,检测所述待识别语料中是否存在预设情感文本库中的文本。
当获取到待识别语料后,检测待识别语料中是否存在预设情感文本库中的文本。其中,待识别语料为语料识别设备或者服务器所接收的其它设备发送的语句,也可为用户输入的语句。情感文本库是预先设置好的,该情感文本库中,存储有高可信情感文本词汇,该高可信情感文本词汇是带有某种情感和观点的词汇。
步骤S20,若检测到所述待识别语料中未存在所述情感文本库中的文本,则对所述待识别语料进行预处理,得到所述待识别语料的语料分词。
若检测到待识别语料未存在情感文本库中的文本,即检测到待识别语料中未存在情感文本库存储的高可信情感文本词汇,则对待识别语料进行预处理,得到待识别语料的语料分词。
进一步地,步骤S20包括:
步骤a,若检测到所述待识别语料中未存在所述情感文本库中的文本,则对所述待识别语料进行分词操作,得到所述待识别语料对应的原始分词。
步骤b,对所述原始分词进行词性标注,得到词性标注后的语料分词。
具体地,若检测到待识别语料中未存在情感文本库中的文本,则对待识别语料进行分词操作,得到待识别语料对应的原始分词,并在得到原始分词后,对原始分词进行词性标注,得到词性标注后的分词,将词性标注后的原始分词记为语料分词。在本实施例中,优先采用ICTCLAS(Institute of Computing Technology,Chinese Lexical AnalysisSystem)对待识别语料进行分词操作和词性标注,ICTCLAS主要功能包括中文分词,词性标注,命名实体识别,新词识别,同时支持用户词典。可以理解的是,本实施例也可采用HMM(Hidden Markov Model,隐马尔可夫模型)、CRFs(Conditional Random Fields,条件随机场)和RNN(Recurrent Neural Network,循环神经网络)等算法对待识别语料进行分词操作和词性标注。
如待识别语料可表示为(word1,word2,word3,…,wordn),其中,wordi表示待识别语料对应的一个原始分词,wordi的词性可表示为posi。例如待识别语料为:“我认为这家银行是一家极具创新性的银行!”,用ICTCLAS进行分词操作及词性标注后语料分词的结果为:我/n认为/v这/rzv家/q银行/n是/vshi一/m家/q极/d具/vg创新/vi性/ng的/ude1银行/n!/wt;其中,n表示名词,v表示动词,rzv表示代词,q表示量词,vshi表示动词,m表示数词,d表示副词,vg表示动词,vi表示动词,ng表示名词,ude1表示助词,wt表示标点符号。
步骤S30,对所述语料分词进行向量化,得到所述语料分词对应的待识别特征向量。
当得到语料分词后,对语料分词进行向量化,得到语料分词对应的待识别特征向量。需要说明的是,待识别特性向量是将语料分词中含有特定特征的词汇用向量的形式表现出来。
进一步地,步骤S30包括:
步骤c,将所述语料分词与预设特征词汇进行对比,以确定各个所述语料分词对应的特征项。
具体地,将语料分析与预设的特征词汇进行对比,以确定各个语料分词对应的特征项。在本实施例中,一共六种特征项,分别为情感特性特征项、情感标点符号特征项、动词情感词特征项、形容情感词特征项、副词特征项和否定词特征项。需要说明的是,可以根据具体需要设置其他特征项。每一种特征项都存在对应特征词库,特征词库中存储有该特征项对应的特征词汇,在将语料分词与预设特征词汇进行对比过程中,将语料分词与各个特征项对应特征词库进行对比,根据对比所得的对比结果确定语料分词是否存在对应的特征词库中,即根据对比结果确定在特征词库中是否查找到与语料分词相同的词汇。若根据对比结果确定在某个特征词库中查找到与语料分词相同的词汇,则确定该语料分词属于该特征词库对应的特征项。如当在动词情感词特征项对应的动词词库中查找到与“认为”语料分词相同的词汇,则确定“认为”语料分词对应的特征项为动词情感词特征项;当在情感标点符号特征项对应的情感标点符号库中查找到与“!”相同的标点符号,则确定“!”语料分词对应的特征项为情感标点符号特征项。
步骤d,计算各个特征项对应的特征权重,根据所述特征权重确定所述语料分词对应的待识别特征向量。
当确定各个语料分词对应的特征项后,计算各个特征项对应的特征权重,根据该特征权重确定语料分词对应的待识别特征向量。需要说明的是,每一个特征项都对应一个向量值,该向量值即为特征权重。如若a表示情感特性特征项,对应的特征权重表示为wa;b表示情感标点符号,对应的特征权重表示为wb;c表示动词情感词特征项,对应的特征权重表示为wc;d表示形容情感词特征项,对应的特征权重表示为wd;e表示副词特征项,对应的特征权重表示为we;f表示否定词特征项,对应的特征权重表示为wf,则语料分词对应的待识别特征向量是一个六维度的特征向量,每个特征项为其中的一个维度,具体地,待识别特征向量可表示为:
进一步地,所述特征项包括情感特性特征项,计算所述情感特性特征项的特征权重的步骤包括:
步骤c1,计算所述情感特性特征项对应的语料分词与预设情感词库中各个情感词之间的语义相似度。
步骤c2,计算所述语义相似度的相似度平均值,将所述相似度平均值确定为所述情感特性特征项对应的特征权重。
具体地,当特征项为情感特性特征项时,计算情感特性特征项的特征权重的过程为:计算情感特性特征项对应的语料分词与预设情感词库中各个情感词之间的语义相似度,将各个语义相似度相加,然后将相加所得的结果除以情感词库中情感词的总数量,得到语义相似度的相似度平均值,并将该相似度平均值确定为情感特性特征项对应的特征权重。在本实施例中,优先选择HowNet计算两个词语之间的相似度,HowNet的中文名为知网,是以汉语和英语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基础且能够被计算机识别的结构性的常识知识库,因此可以基于HowNet计算两个词语间的语义相似度。需要说明的是,在本实施例中,也可采用基于语义词典的词语相似度计算方法计算情感特性特征项对应的语料分词与预设情感词库中各个情感词之间的语义相似度,或者采用其它计算语义相似度的计算方法计算情感特性特征项对应的语料分词与预设情感词库中各个情感词之间的语义相似度。
具体地,如基于HowNet计算word1和word2两个词语的相似度,则word1和word2两个词语之间的相似度可标识为Similarity(word1,word1),如采用HowNet可以得到Similarity(认为,觉得)=1.00000,Similarity(喜欢,热爱)=0.615385。若预设情感词库中的情感词标识为subji(1≤i≤Subjcount),Subjcount表示预设情感词库里情感词的总数量。若记SentimentValue(word)为词语word的情感值,则计算公式可表示为:
Figure BDA0002238860850000081
由上述公式可知,一个词语的情感值为该词语与预设情感词库里所有情感词语义相似度的相似度平均值。
对于待识别语料“我/n认为/v这/rzv家/q银行/n是/vshi一/m家/q极/d具/vg创新/vi性/ng的/ude1银行/n!/wt”,可以得到各个语料分词的情感值为:SentimentValue(我),SentimentValue(认为),SentimentValue(这),SentimentValue(家),SentimentValue(银行),SentimentValue(是),SentimentValue(一),SentimentValue(家),SentimentValue(极),SentimentValue(具),SentimentValue(创新),SentimentValue(性),SentimentValue(的),SentimentValue(银行),则情感特性特征项对应的特征权重wa的计算公式为:
Figure BDA0002238860850000082
对于待识别语料“我/n认为/v这/rzv家/q银行/n是/vshi一/m家/q极/d具/vg创新/vi性/ng的/ude1银行/n!/wt”的情感特性特征项对应的特征权重wa=SentimentValue(我)+SentimentValue(认为)+SentimentValue(这)+SentimentValue(家)+SentimentValue(银行)+SentimentValue(是)+SentimentValue(一)+SentimentValue(家)+SentimentValue(极)+SentimentValue(具)+SentimentValue(创新)+SentimentValue(性)+SentimentValue(的)+SentimentValue(银行)。
进一步地,所述特征项包括动词情感词特征项、形容情感词特征项、副词特征项、否定词特征项和情感标点符号特征项,步骤c包括:
步骤c3,检测所述语料分词中是否存在各个特征项对应的特征词汇。
步骤c4,若所述语料分词中存在特征项对应的特征词汇,则确定存在所述特征词汇的特征项的特征权重为第一数值。
步骤c5,若所述语料分词中未存在特征项对应的特征词汇,则确定未存在所述特征词汇的特征项的特征权重为第二数值。
当特征项为动词情感词特征项、形容情感词特征项、副词特征项、否定词特征项和情感标点符号特征项时,计算对应特征权重的方法是一样的。具体地,检测语料分词中是否存在各个特征项对应的特征词汇,若检测到语料分词中存在特征项对应的特征词汇,则确定存在特征词汇的特征项的特征权重为第一数值,若检测到语料分词中未存在特征项对应的特征词汇,则确定未存在特征词汇的特征项的特征权重为第二数值。在本实施例中,第一数值为1,第二数值为0。可以理解的是,也可以将第一数值和第二数值设置为其它数值。为了便于理解,以下以公式的形式表示计算动词情感词特征项、形容情感词特征项、副词特征项、否定词特征项和情感标点符号特征项对应特征权重的过程。
特征权重wb的计算公式为:
Figure BDA0002238860850000091
语料分词“我/n认为/v这/rzv家/q银行/n是/vshi一/m家/q极/d具/vg创新/vi性/ng的/ude1银行/n!/wt”中存在情感标点符号“!”,则wb=1。
特征权重wc的计算公式为:
Figure BDA0002238860850000092
语料分词“我/n认为/v这/rzv家/q银行/n是/vshi一/m家/q极/d具/vg创新/vi性/ng的/ude1银行/n!/wt”中存在动词情感词“创新”,则wc=1。
特征权重wd的计算公式为:
Figure BDA0002238860850000093
语料分词“我/n认为/v这/rzv家/q银行/n是/vshi一/m家/q极/d具/vg创新/vi性/ng的/ude1银行/n!/wt”中不存在形容情感词,则wd=0。
特征权重we的计算公式为:
Figure BDA0002238860850000101
语料分词“我/n认为/v这/rzv家/q银行/n是/vshi一/m家/q极/d具/vg创新/vi性/ng的/ude1银行/n!/wt”中存在副词“极”,则we=1。
特征权重wf的计算公式为:
Figure BDA0002238860850000102
语料分词“我/n认为/v这/rzv家/q银行/n是/vshi一/m家/q极/d具/vg创新/vi性/ng的/ude1银行/n!/wt”中不存在否定词,则wf=0。
步骤S40,将所述待识别特征向量输入至预存的语料分类模型中,得到所述待识别语料的识别结果。
当得到待识别特征向量后,将待识别特征向量输入至预先存储的语料分类模型中,通过该语料分类模型得到待识别语料的识别结果,其中,存在两种识别结果,一种是将待识别语料识别为观点句,一种是将待识别语料识别为非观点句。
进一步地,步骤S40包括:
步骤e,将所述待识别特征向量输入预存的语料分类模型中,得到所述语料分类模型输出的结果标识。
步骤f,若所述结果标识为观点句标识,则确定所述待识别语料属于观点句。
步骤g,若所述结果标识为非观点句标识,则确定所述待识别语料属于非观点句。
具体地,将待识别特征向量输入预先存储的语料分类模型中,得到语料分类模型输出的结果标识。在本实施例中,不限制结果标识的表现形式,结果标识可用数字表示,也可用字母等表示,一共存在两种结果标识,一种为表示待识别语料为观点句的观点句标识,一种为表示待识别语料为非观点句的非观点句标识。若确定结果标识为观点句标识,则确定待识别语料属于观点句;若确定结果标识为非观点句标识,则确定待识别语料属于非观点句。
本实施例通过在获取到待识别语料后,先通过预设的情感文本库来识别待语料是否为观点句,若确定待识别语料不是观点句,然后通过预先训练好的语料分类模型来识别待识别语料是观点句还是非观点句,提高了观点句识别的准确率和识别效率。进一步地,将待识别语料的情感特性特征项、情感标点符号特征项、动词情感词特征项、形容情感词特征项、副词特征项和否定词特征项作为观点句的识别特征项,降低特征项的维度,在不影响观点句识别结果准确率的情况下,进一步提高了待识别语料观点句的识别效率。
进一步地,提出本发明语料识别方法第二实施例。
所述语料识别方法第二实施例与所述语料识别方法第一施例的区别在于,参照图2,语料识别方法还包括:
步骤S50,获取训练语料,对所述训练语料进行预处理,得到所述训练语料对应的训练分词。
获取训练语料,对训练语料进行预处理,得到训练语料的训练分词,其中,对训练语料进行预处理,得到训练语料对应的训练分词的过程与对待识别语料进行预处理,得到待识别语料的语料分词的过程一致,在此不再赘述。在本实施例中,所获取的训练语料的数量可根据具体需要而设置,本实施例对训练语料的数量不做具体限制。
步骤S60,对所述训练分词进行向量化,得到所述训练语料对应的训练特征向量。
步骤S70,将所述训练特征向量输入预设的支持向量机SVM分类器中,以得到语料分类模型,并存储所述语料分类模型。
当得到训练分词后,对训练分词进行向量化,得到训练语料对应的训练特征向量。需要说明的是,得到训练特征向量的过程与得到待识别特征向量的过程一致,在此不再重复赘述。可以理解的是,每一训练语料都存在一组对应的训练分词,每一组训练分词都存在对应的训练特征向量,即每一训练语料都存在对应的训练特征向量。当得到训练特征向量后,将训练特征向量输入预设的SVM(Support Vector Machine,支持向量机)分类器中,生成语料分类模型,并存储该语料分类模型。
本实施例通过将情感特性特征项、情感标点符号特征项、动词情感词特征项、形容情感词特征项、副词特征项和否定词特征项作为观点句的识别特征项来进行训练语料分类模型,降低了特征项的维度,在不影响观点句识别结果准确率的情况下,提高了语料分类模型识别观点句的识别效率。
需要说明的是,现有语料分类模型训练过程中,去除了训练语料中出现频率降低的特征项,但出现频率较低的特征项一般带有较大的主观信息,去除出现频率降低的特征项,会降低识别观点句查全率。而本申请将情感特性特征项、情感标点符号特征项、动词情感词特征项、形容情感词特征项、副词特征项和否定词特征项作为观点句的识别特征项来进行训练语料分类模型,提高了观点句识别的查全率。
进一步地,提出本发明语料识别方法第三实施例。
所述语料识别方法第三实施例与所述语料识别方法第一或者第二实施例的区别在于,所述语料识别方法还包括:
步骤h,若检测到所述待识别语料中存在所述情感文本库中的文本,则确定所述待识别语料属于观点句。
若检测到待识别语料中存在情感文本库中的文本,即检测到待识别语料中存在情感文本库中的文本,则确定待识别语料属于观点句。可以理解是,本实施例直接根据情感文本库识别出待识别语料属于观点句,提高了观点句识别的识别效率。
进一步地,在确定待识别语料中是否存在情感文本库中的文本后,将待识别语料中是否存在情感文本库中的文本作为语料分类模型的一个新特征项g,此时,该特征项g的特征权重可表示为wg,特征权重wg的计算公式为:
Figure BDA0002238860850000121
此时,待识别特征向量可表示为
Figure BDA0002238860850000122
可以理解的是,在训练语料分类模型时,对应的训练特征向量也可表示为通过增加一个新的特征项来训练语料分类模型,进一步提高了语料分类模型识别观点句的准确率。
此外,参照图3,本发明还提供一种语料识别装置,所述语料识别装置包括:
检测模块10,用于当获取到待识别语料后,检测所述待识别语料中是否存在预设情感文本库中的文本;
预处理模块20,用于若检测到所述待识别语料中未存在所述情感文本库中的文本,则对所述待识别语料进行预处理,得到所述待识别语料的语料分词;
向量化模块30,用于对所述语料分词进行向量化,得到所述语料分词对应的待识别特征向量;
输入模块40,用于将所述待识别特征向量输入至预存的语料分类模型中,得到所述待识别语料的识别结果。
进一步地,所述预处理模块20包括:
分词单元,用于若检测到所述待识别语料中未存在所述情感文本库中的文本,则对所述待识别语料进行分词操作,得到所述待识别语料对应的原始分词;
词性标注单元,用于对所述原始分词进行词性标注,得到词性标注后的语料分词。
进一步地,所述向量化模块30包括:
对比单元,用于将所述语料分词与预设特征词汇进行对比,以确定各个所述语料分词对应的特征项;
计算单元,用于计算各个特征项对应的特征权重;
第一确定单元,用于根据所述特征权重确定所述语料分词对应的待识别特征向量。
进一步地,所述特征项包括情感特性特征项,所述计算单元还用于计算所述情感特性特征项对应的语料分词与预设情感词库中各个情感词之间的语义相似度;计算所述语义相似度的相似度平均值,将所述相似度平均值确定为所述情感特性特征项对应的特征权重。
进一步地,所述特征项包括动词情感词特征项、形容情感词特征项、副词特征项、否定词特征项和情感标点符号特征项,所述计算单元包括:
检测子单元,用于检测所述语料分词中是否存在各个特征项对应的特征词汇;
确定子单元,用于若所述语料分词中存在特征项对应的特征词汇,则确定存在所述特征词汇的特征项的特征权重为第一数值;若所述语料分词中未存在特征项对应的特征词汇,则确定未存在所述特征词汇的特征项的特征权重为第二数值。
进一步地,所述语料识别装置还包括:
获取模块,用于获取训练语料;
所述预处理模块20还用于对所述训练语料进行预处理,得到所述训练语料对应的训练分词;
所述向量化模块30还用于对所述训练分词进行向量化,得到所述训练语料对应的训练特征向量;
所述输入模块40还用于将所述训练特征向量输入预设的支持向量机SVM分类器中,以得到语料分类模型;
所述语料识别装置还包括:
存储模块,用于存储所述语料分类模型。
进一步地,所述语料识别装置还包括:
确定模块,用于若检测到所述待识别语料中存在所述情感文本库中的文本,则确定所述待识别语料属于观点句。
进一步地,所述输入模块40包括:
输入单元,用于将所述待识别特征向量输入预存的语料分类模型中,得到所述语料分类模型输出的结果标识;第二确定单元,用于若所述结果标识为观点句标识,则确定所述待识别语料属于观点句;若所述结果标识为非观点句标识,则确定所述待识别语料属于非观点句。
需要说明的是,语料识别装置的各个实施例与上述语料识别方法的各实施例基本相同,在此不再详细赘述。
此外,本发明还提供一种语料识别设备。如图4所示,图4是本发明实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图4即可为语料识别设备的硬件运行环境的结构示意图。本发明实施例语料识别设备可以是PC,便携计算机等终端设备。
如图4所示,该语料识别设备可以包括:处理器1001,例如CPU,存储器1005,用户接口1003,网络接口1004,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,语料识别设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图4中示出的语料识别设备结构并不构成对语料识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语料识别程序。其中,操作系统是管理和控制语料识别设备硬件和软件资源的程序,支持语料识别程序以及其它软件或程序的运行。
在图4所示的语料识别设备中,用户接口1003主要用于连接客户端,与客户端进行数据通信,如获取语料;网络接口1004主要用于后台服务器,与后台服务器进行数据通信,如存储语料分类模型;处理器1001可以用于调用存储器1005中存储的语料识别程序,并执行如上所述的语料识别方法的步骤。
本发明语料识别设备具体实施方式与上述语料识别方法各实施例基本相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有语料识别程序,所述语料识别程序被处理器执行时实现如上所述的语料识别方法的步骤。
本发明计算机可读存储介质具体实施方式与上述语料识别方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (11)

1.一种语料识别方法,其特征在于,所述语料识别方法包括以下步骤:
当获取到待识别语料后,检测所述待识别语料中是否存在预设情感文本库中的文本;
若检测到所述待识别语料中未存在所述情感文本库中的文本,则对所述待识别语料进行预处理,得到所述待识别语料的语料分词;
对所述语料分词进行向量化,得到所述语料分词对应的待识别特征向量;
将所述待识别特征向量输入至预存的语料分类模型中,得到所述待识别语料的识别结果。
2.如权利要求1所述的语料识别方法,其特征在于,所述若检测到所述待识别语料中未存在所述情感文本库中的文本,则对所述待识别语料进行预处理,得到所述待识别语料的语料分词的步骤包括:
若检测到所述待识别语料中未存在所述情感文本库中的文本,则对所述待识别语料进行分词操作,得到所述待识别语料对应的原始分词;
对所述原始分词进行词性标注,得到词性标注后的语料分词。
3.如权利要求1所述的语料识别方法,其特征在于,所述对所述语料分词进行向量化,得到所述语料分析对应的待识别特征向量的步骤包括:
将所述语料分词与预设特征词汇进行对比,以确定各个所述语料分词对应的特征项;
计算各个特征项对应的特征权重,根据所述特征权重确定所述语料分词对应的待识别特征向量。
4.如权利要求3所述的语料识别方法,其特征在于,所述特征项包括情感特性特征项,计算所述情感特性特征项的特征权重的步骤包括:
计算所述情感特性特征项对应的语料分词与预设情感词库中各个情感词之间的语义相似度;
计算所述语义相似度的相似度平均值,将所述相似度平均值确定为所述情感特性特征项对应的特征权重。
5.如权利要求3所述的语料识别方法,其特征在于,所述特征项包括动词情感词特征项、形容情感词特征项、副词特征项、否定词特征项和情感标点符号特征项,所述计算各个特征项对应的特征权重的步骤包括:
检测所述语料分词中是否存在各个特征项对应的特征词汇;
若所述语料分词中存在特征项对应的特征词汇,则确定存在所述特征词汇的特征项的特征权重为第一数值;
若所述语料分词中未存在特征项对应的特征词汇,则确定未存在所述特征词汇的特征项的特征权重为第二数值。
6.如权利要求1所述的语料识别方法,其特征在于,所述将所述待识别特征向量输入至预存的语料分类模型中,得到所述待识别语料的识别结果的步骤之前,还包括:
获取训练语料,对所述训练语料进行预处理,得到所述训练语料对应的训练分词;
对所述训练分词进行向量化,得到所述训练语料对应的训练特征向量;
将所述训练特征向量输入预设的支持向量机SVM分类器中,以得到语料分类模型,并存储所述语料分类模型。
7.如权利要求1所述的语料识别方法,其特征在于,所述当获取到待识别语料后,检测所述待识别语料中是否存在预设情感文本库中的文本的步骤之后,还包括:
若检测到所述待识别语料中存在所述情感文本库中的文本,则确定所述待识别语料属于观点句。
8.如权利要求1至7任一项所述的语料识别方法,其特征在于,所述将所述待识别特征向量输入至预存的语料分类模型中,得到所述待识别语料的识别结果的步骤包括:
将所述待识别特征向量输入预存的语料分类模型中,得到所述语料分类模型输出的结果标识;
若所述结果标识为观点句标识,则确定所述待识别语料属于观点句;
若所述结果标识为非观点句标识,则确定所述待识别语料属于非观点句。
9.一种语料识别装置,其特征在于,所述语料识别装置包括:
检测模块,用于当获取到待识别语料后,检测所述待识别语料中是否存在预设情感文本库中的文本;
预处理模块,用于若检测到所述待识别语料中未存在所述情感文本库中的文本,则对所述待识别语料进行预处理,得到所述待识别语料的语料分词;
向量化模块,用于对所述语料分词进行向量化,得到所述语料分词对应的待识别特征向量;
输入模块,用于将所述待识别特征向量输入至预存的语料分类模型中,得到所述待识别语料的识别结果。
10.一种语料识别设备,其特征在于,所述语料识别设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的语料识别程序,所述语料识别程序被所述处理器执行时实现如权利要求1至8中任一项所述的语料识别方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语料识别程序,所述语料识别程序被处理器执行时实现如权利要求1至8中任一项所述的语料识别方法的步骤。
CN201910999338.5A 2019-10-18 2019-10-18 语料识别方法、装置、设备及计算机可读存储介质 Pending CN110750983A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910999338.5A CN110750983A (zh) 2019-10-18 2019-10-18 语料识别方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910999338.5A CN110750983A (zh) 2019-10-18 2019-10-18 语料识别方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110750983A true CN110750983A (zh) 2020-02-04

Family

ID=69279071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910999338.5A Pending CN110750983A (zh) 2019-10-18 2019-10-18 语料识别方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110750983A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782803A (zh) * 2020-06-05 2020-10-16 京东数字科技控股有限公司 一种工单的处理方法、装置、电子设备及存储介质
CN112613295A (zh) * 2020-12-21 2021-04-06 竹间智能科技(上海)有限公司 语料识别方法及装置、电子设备、存储介质
CN113220980A (zh) * 2020-02-06 2021-08-06 北京沃东天骏信息技术有限公司 物品属性词识别方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220980A (zh) * 2020-02-06 2021-08-06 北京沃东天骏信息技术有限公司 物品属性词识别方法、装置、设备及存储介质
CN111782803A (zh) * 2020-06-05 2020-10-16 京东数字科技控股有限公司 一种工单的处理方法、装置、电子设备及存储介质
CN112613295A (zh) * 2020-12-21 2021-04-06 竹间智能科技(上海)有限公司 语料识别方法及装置、电子设备、存储介质
CN112613295B (zh) * 2020-12-21 2023-12-22 竹间智能科技(上海)有限公司 语料识别方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
US11093854B2 (en) Emoji recommendation method and device thereof
US20210201143A1 (en) Computing device and method of classifying category of data
CN107180084B (zh) 词库更新方法及装置
CN108038208B (zh) 上下文信息识别模型的训练方法、装置和存储介质
CN110750983A (zh) 语料识别方法、装置、设备及计算机可读存储介质
US10417338B2 (en) External resource identification
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
CN108287848B (zh) 用于语义解析的方法和系统
US20150254228A1 (en) Non-transitory computer readable medium and information processing apparatus and method
CN110955750A (zh) 评论区域和情感极性的联合识别方法、装置、电子设备
US20240028650A1 (en) Method, apparatus, and computer-readable medium for determining a data domain associated with data
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN112329433A (zh) 文本通顺度检测方法、装置、设备及计算机可读存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN109753646B (zh) 一种文章属性识别方法以及电子设备
CN116644183B (zh) 文本分类方法、装置及存储介质
CN111274384B (zh) 一种文本标注方法及其设备、计算机存储介质
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN116933782A (zh) 一种电商文本关键词提取处理方法及系统
CN108021609B (zh) 文本情感分类方法、装置、计算机设备和存储介质
CN115563515A (zh) 文本相似性检测方法、装置、设备及存储介质
CN114780678A (zh) 文本检索方法、装置、设备及存储介质
WO2018171499A1 (zh) 一种信息检测方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination