CN113806542B - 文本分析方法及系统 - Google Patents
文本分析方法及系统 Download PDFInfo
- Publication number
- CN113806542B CN113806542B CN202111103923.6A CN202111103923A CN113806542B CN 113806542 B CN113806542 B CN 113806542B CN 202111103923 A CN202111103923 A CN 202111103923A CN 113806542 B CN113806542 B CN 113806542B
- Authority
- CN
- China
- Prior art keywords
- text
- clause
- category
- category label
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 145
- 238000012549 training Methods 0.000 claims description 34
- 230000015654 memory Effects 0.000 claims description 30
- 230000002441 reversible effect Effects 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 230000001105 regulatory effect Effects 0.000 claims 2
- 230000000694 effects Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本分析方法,所述方法包括:将目标文本输入到文本分析模型中,得到各个文本类别标签的概率系数;其中,所述文本分析模型为预先训练好的并用于分析文本类别的模型;根据所述目标文本关联对象的历史数据,调整所述各个文本类别标签的概率系数;及根据调整后的各个文本类别标签的概率系数,获取所述目标文本的文本分析结果。本申请提供的技术方案,通过训练好的文本分析模型可以获取文本的语义信息,进行深层次的分析以有效提高分析准确性;通过融入所述目标文本关联对象的历史数据,基于该历史数据对文本分析模型的输出进行调整,进一步地有效提高分析准确性。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种文本分析方法、系统、计算机设备和计算机可读存储介质。
背景技术
随着互联网和大数据的发展,文本分析技术成为各方关注的重点,其可以用于各种场景中。在现有技术中,主要通过关键词、机器学习和深度学习等进行文本分析。但是,上述文本分析具有如下缺陷:准确度不高,无法满足实际需要。
发明内容
本申请实施例的目的是提供一种文本分析方法、系统、计算机设备及计算机可读存储介质,用于解决上述问题。
本申请实施例的一个方面提供了一种文本分析方法,所述方法包括:
将目标文本输入到文本分析模型中,得到各个文本类别标签的概率系数;其中,所述文本分析模型为预先训练好的并用于分析文本类别的模型;
根据所述目标文本关联对象的历史数据,调整所述各个文本类别标签的概率系数;及
根据调整后的各个文本类别标签的概率系数,获取所述目标文本的文本分析结果。
可选的,所述历史数据包括多个历史文本的类别,所述类别包括第一类别和其他类别;所述根据所述目标文本关联对象的历史数据,调整所述各个文本类别标签的概率系数,包括:
根据所述第一类别的数量和所述多个历史文本的数量,获取所述第一类别的出现概率;及
根据所述第一类别的出现概率,调整与所述第一类别对应的文本类别标签的概率系数。
可选的,所述方法还包括:分析所述目标文本中多个子句的子句分析结果;
相应的,所述根据调整后的各个文本类别标签的概率系数,获取所述目标文本的文本分析结果,包括:根据所述目标文本中各个子句的子句分析结果以及所述调整后的各个文本类别标签的概率系数,获取所述目标文本的所述文本分析结果。
可选的所述分析所述目标文本中多个子句的子句分析结果,包括:
从所述目标文本中分割出所述多个子句;
将所述多个子句各输入到所述文本分析模型中,得到所述各个子句的各个子句类别标签的概率系数;及
根据所述各个子句的各个子句类别标签的概率系数,获取所述各个子句类别标签的综合概率系数,其中所述各个子句类别标签的综合概率系数为所述子句分析结果。
可选的所述根据所述各个子句的各个子句类别标签的概率系数,获取所述各个子句类别标签的综合概率系数,包括:
将所述各个子句分别输入到反向检测模型中,得到所述各个子句的反向检测结果;其中,所述反向检测模型为预先训练好的并用于分析正向/反向表达的模型;
根据所述各个子句的反向检测结果,调整所述各个子句的各个子句类别标签的概率系数;及
根据调整后的所述各个子句的各个子句类别标签的概率系数,获取所述各个子句类别标签的综合概率系数。
可选的,还包括:
收集多个训练文本;
基于所述多个训练文本对BERT模型进行训练,得到初步文本分析模型;
基于转折词构造多个训练样本;及
进行所述多个训练样本对所述初步文本分析模型进行再次训练,得到所述文本分析模型。
可选的,所述基于转折词构造多个训练样本,包括:
获取包括转折词的待构造文本;
获取所述待构造文本的目标部分,所述目标部分为位于转折词之后的文本内容;及
将所述目标部分添加到所述待构造文本的尾部,得到用于所述再次训练的训练样本。
本申请实施例的一个方面又提供了一种文本分析系统,所述系统包括:
输入模块,用于:将目标文本输入到文本分析模型中,得到各个文本类别标签的概率系数;其中,所述文本分析模型为预先训练好的并用于分析文本类别的模型;
调整模块,用于:根据所述目标文本关联对象的历史数据,调整所述各个文本类别标签的概率系数;及
获取模块,用于:根据调整后的各个文本类别标签的概率系数,获取所述目标文本的文本分析结果。
本申请实施例的一个方面又提供了一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时用于实现如上述文本分析方法的步骤。
本申请实施例的一个方面又提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上述文本分析方法的步骤。
本申请实施例提供的文本分析方法、系统、设备及计算机可读存储介质,包括如下优点:
第一、相对于仅通过简单的关键词匹配进行文本分类,本实施例通过训练好的文本分析模型可以获取文本的语义信息,进行深层次的分析以有效提高分析准确性。
第二、通过融入目标文本关联对象的历史数据,基于该历史数据对文本分析模型的输出进行调整,从而可以提高识别效率和进一步地有效提高分析准确性。
附图说明
图1示意性示出了根据本申请实施例的文本分析方法的应用环境图;
图2示意性示出了根据本申请实施例一的文本分析方法的流程图;
图3为文本分析模型的工作流程框架;
图4为图2中步骤S202的子步骤流程图;
图5示意性示出了根据本申请实施例一的文本分析方法的新增步骤流程图;
图6为图5中步骤S500的子步骤流程图;
图7为图6中步骤S604的子步骤流程图;
图8示意性示出了根据本申请实施例一的文本分析方法的新增步骤流程图;
图9为图8中步骤S804的子步骤流程图;
图10示意性示出了根据本申请实施例二的文本分析系统的框图;
图11示意性示出了根据本申请实施例三的适于实现文本分析方法的计算机设备的硬件架构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
在本申请的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本申请及区别每一步骤,因此不能理解为对本申请的限制。
经发明人分析,舆情分析一般包括以下几种方式:
第一、基于关键词匹配的文本分析方法。
第二、基于机器学习的文本分析方法:使用SVM(support vector machines,支持向量机)、LR(Logistic Regression,逻辑回归)等机器学习模型进行文本分析。
第三、基于深度学习的文本分析方法:通过RNN(Recurrent Neural Network,循环神经网络)、CNN(Convolutional Neural Network,卷积神经网络)、LSTM(Long Short-TermMemory,长短期记忆网络)等模型获取语义向量,根据语义向量进行分析。
但是上述分析方法,具体一定缺陷,如下:
第一、基于关键词匹配的文本分析方法,仅通过简单的关键词匹配进行文本分类,没有获取文本数据的语义信息,无法进行深层次的分析从而导致分类效果较差。
第二、基于机器学习的文本分析方法:传统机器学习模型可以一定程度上获取文本数据语义信息,但是能力较弱,效果虽优于关键词匹配方法,但是仍无法达到理想效果。
第三、基于深度学习的文本分析方法:深度神经网络模型目前已应用在多种NLP任务中并且已经取得了良好效果,具有较强的参考价值,但是不同类型数据集以及不同业务场景有其特殊性,因此不可将一种技术方案直接应用在所有业务场景中。
因此,上述方法具有效果差(准确度低)、效率低下等问题。
有鉴于此,本申请提供了文本分析方案,用于解决上文提出的一个或多个问题。
以下为本申请的术语解释:
自然语言处理(NLP,Neuro-Linguistic Programming):是分析人类语言的人工智能。工作原理如下:接收自然语言,这种语言是通过人类的自然使用演变而来的;转译自然语言,通常是通过基于概率的算法;分析自然语言并输出结果。
文本分类:使用计算机分析文本数据中所蕴含的文本类别,例如:积极、中性、消极。
文本:可以指对话、文章、评论等各种信息。
GRU(Gate Recurrent Unit,门控循环单元),是循环神经网络(Recurrent NeuralNetwork,RNN)的一种。
图1示意性示出了根据本申请实施例的文本分析方法的环境架构图。在示例性的实施例中,如图1所示,计算机设备2可以通过网络4连接多个电子设备6。
计算机设备2可以通过一个或多个网络4获取用户通过电子设备6提交的文本,如评论、文章、对话等。
计算机设备2,可以由单个或多个计算设备组成,如,机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。所述一个或多个计算机设备可以包括虚拟化计算实例。计算机设备可以基于定义用于仿真的特定软件(例如,操作系统,专用应用程序,服务器)的虚拟映像和/或其他数据来加载虚拟机。随着对不同类型的处理服务的需求改变,可以在所述一个或多个计算机设备上加载和/或终止不同的虚拟机。
网络4,可以包括各种网络设备,例如路由器,交换机,多路复用器,集线器,调制解调器,网桥,中继器,防火墙,代理设备和/或等等。网络4可以包括物理链路,例如同轴电缆链路,双绞线电缆链路,光纤链路,它们的组合和/或类似物。网络4可以包括无线链路,例如蜂窝链路,卫星链路,Wi-Fi链路和/或类似物。
电子设备6可以被配置为访问计算机设备2。电子设备6可以包括可以游戏引擎的任何类型的计算机设备,如:智能手机,平板设备,膝上型计算机,智能设备(例如,智能手表,智能眼镜),虚拟现实,游戏设备,机顶盒,数字流设备,车载终端,智能电视,电视盒,MP4(运动图像专家组音频层IV)播放器等。
电子设备6,可以运行Windows系统、安卓(AndroidTM)系统或iOS系统等操作系统。另外,用户还可以根据需要安装各种应用程序、程序组件。基于上述程序或程序组件,可以实现各类功能,如游戏互动,或输入和提交评论等。
下文,本申请将提供一种文本分析方法、系统、计算机设备和计算机可读存储介质。
实施例一
图2示意性示出了根据本申请实施例一的文本分析方法的流程图。所述方法可以执行在计算机设备2中。如图2所示,该文本分析方法可以包括步骤S200~S204,其中:
步骤S200,将目标文本输入到文本分析模型中,得到各个文本类别标签的概率系数;其中,所述文本分析模型为预先训练好的并用于分析文本类别的模型。
步骤S202,根据所述目标文本关联对象的历史数据,调整所述各个文本类别标签的概率系数。
步骤S204,根据调整后的各个文本类别标签的概率系数,获取所述目标文本的文本分析结果。
在上述步骤中,所述文本分析模型可以基于RNN、CNN、LSTM等深度神经网络模型。所述文本分析模型可以基于BERT(Bidirectional Encoder Representations fromTransformers,基于变换器的双向编码器表示)模型得到。BERT模型是一种深度双向的、无监督的语言表示,且使用文本语料库进行训练的模型。
以基于BERT的文本分析模型为例,如图3所示,其处理过程可以如下:
(1)通过模型的输入层将所述目标文本中的各个字进行向量表示,得到各个字的字向量。
在一些实施例中,还可以包括文本向量以及各个字在目标文本中的位置向量等。
(2)将各个字的字向量输入到BERT层(Transformer),得到输出向量。
该输出向量作为所述目标文本的语义表示。
(3)将该输出向量依次经过全连接层和分类层,计算出各个文本类别标签的概率系数。
所述分类层,可以是Softmax层等。
(4)基于文本类别标签的概率系数,得到所述目标文本的真实类别。
在本文中,类别可以指代文本极性,如积极、消极、中性等,或者好评、差评、中评等各种分类。
相应的,文本类别标签包括对应于好评的积极类别、差评的消极类别、中评的中性类别。经分析,同一个关联对象,其历史数据会呈现一个分布规律。例如,有些关联对象的历史文本以某个类别居多,另一些关联对象的历史本文以另一个类别居多。示例性的,当一个关联对象的历史文本以第一类别居多,而此次的目标文本输出为第二类别,说明此次目标文本具有某种特殊性,为进一步凸显出这种特殊性,此时可以将第二类别的概率需要上调,反之亦然。
在本实施例中,融入所述关联对象的历史数据,并基于该历史数据对文本分析模型的输出进行调整,可以使得输出更接近真实情况。
因此,根据调整后的各个文本类别标签的概率系数得到的文本分析结果具有更高准确度。
综上所示,本申请实施例提供的文本分析方法,可以包括如下优点:
第一、相对于仅通过简单的关键词匹配进行文本分类,本实施例通过训练好的文本分析模型可以获取文本的语义信息,进行深层次的分析以有效提高分类准确性。
第二、通过融入关联对象的历史数据,并基于该历史数据对文本分析模型的输出进行调整,从而可以进一步地有效提高分类准确性。
第三、由于本实施例提供了基于历史数据的调整/修正策略,因此,在达到相同分类准确度的情况下,相比单一模型分类,训练强度下降,提高效率和节省计算资源。
以下提供部分可选的实施例。
作为可选的实施例,所述历史数据包括多个历史文本的类别,其中,所述类别包括第一类别和其他类别。为了更为准确地识别目标文本的真实类别,如图4所示,所述步骤S202可以包括:步骤S400,根据所述第一类别的数量和所述多个历史文本的数量,获取所述第一类别的出现概率;及步骤S402,根据所述第一类别的出现概率,调整与所述第一类别对应的文本类别标签的概率系数。
作为可选的实施例,为了进一步提高分类准确度,可以提供文本中各个子句局部特征。理由如下:电子设备所提交的文本中,不同子句可能包含不同的类别,因此结合子句局部特征进行细粒度的分类可以详细获取目标文本的真实类别。
如图5所示,所述文本分析方法还可以包括:步骤S500,分析所述目标文本中多个子句的子句分析结果。相应的,所述步骤S204可以包括:步骤S502,根据所述目标文本中各个子句的子句分析结果以及所述调整后的各个文本类别标签的概率系数,获取所述目标文本的所述文本分析结果。在本实施例中,结合整体特征分析和各个子句的局部特征分析,综合确定文本分析结果,提高了准确度。
如图6所示,所述步骤S500可以包括如下步骤:步骤S600,从所述目标文本中分割出所述多个子句;步骤S602,将所述多个子句各输入到所述文本分析模型中,得到所述各个子句的各个子句类别标签的概率系数;及步骤S604,根据所述各个子句的各个子句类别标签的概率系数,获取所述各个子句类别标签的综合概率系数,其中所述各个子句类别标签的综合概率系数为所述子句分析结果。
如图7所示,为了进一步提高分类准确度,所述步骤S604可以包括如下步骤:步骤S700,将所述各个子句分别输入到反向检测模型中,得到所述各个子句的反向检测结果;其中,所述反向检测模型为预先训练好的并用于分析正向/反向表达的模型;步骤S702,根据所述各个子句的反向检测结果,调整所述各个子句的各个子句类别标签的概率系数;及步骤S704,根据调整后的所述各个子句的各个子句类别标签的概率系数,获取所述各个子句类别标签的综合概率系数。
如图8所示,所述模型训练步骤可以包括:步骤S800,收集多个训练文本;步骤S802,基于所述多个训练文本对BERT模型进行训练,得到初步文本分析模型;步骤S804,基于转折词构造多个训练样本;及步骤S806,进行所述多个训练样本对所述初步文本分析模型进行再次训练,得到所述文本分析模型。
所述模型可以适用于不同的技术领域,示例性的,下面以游戏领域的文本训练为例:
现有的BERT模型已经在新闻、维基百科等海量数据中进行预训练,具备强大的语义获取能力,其在语义识别方面被证明具有良好效果。但是不同类型数据集以及不同业务场景有其特殊性,因此不可以直接应用在所有业务场景中,例如,游戏领域的文本数据有其独特的内容以及表达方式,导致现有的BERT模型无法很好地理解游戏领域的文本内容。因此,在本实施例中,通过游戏领域的训练文本对BERT模型进行无监督训练使其能够很好的适配游戏领域。且,通过构造特殊样本用于再次训练,可使得模型更加侧重于文本重点表达的内容。
如图9所示,为了提供更有效地的训练文本,所述步骤S804可以通过如下步骤实现:步骤S900,获取包括转折词的待构造文本;步骤S902,获取所述待构造文本的目标部分,所述目标部分为位于转折词之后的文本内容;及步骤S904,将所述目标部分添加到所述待构造文本的尾部,得到用于所述再次训练的训练样本。
以游戏领域的评论文本为例,在对游戏进行评论时通常存在先扬后抑的情况。例如“游戏剧情不错但是画质和音效很一般”,这种文本真正的重点在后半部分的转折内容中。因此,为让模型能够侧重于真正的重点内容,在本实施例中,对具有上述特点的文本进行特殊构造,即将转折部分内容再次拼接在文本末尾,对上述示例进行构造后为“游戏剧情不错但是画质和音效很一般画质和音效很一般”。
需要说明是,上述可选实施例可以单独或组合实施。相比于关键词匹配的分析方法和基于机器学习的分析方法,组合后的技术方案可分别提高32%和27%的准确率。相比于直接使用LSTM、GRU常见深度学习方法,可提高16%的准确率。
为了使得本申请更加容易理解,以下提供一个示例:
所述类别包括第一类别,第二类别。
通过文本分析模型输出目标文本的各个类别标签的概率系数。
接下来,各个类别的文本类别标签的概率系数调整如下:调整后的概率系数=概率系数/(1+α)。其中,α代表目标文本关联对象的历史数据中的所有历史文本中的第一类别比例等。例如,可以通过所述文本分析模型分析所述所有历史文本,若总共10个历史文本,其中9个历史文本均为第一类别,则α的值为0.9,即当关联对象的历史文本以第一类别越多,则该第一类别标签的概率系数下调程度越大。
一个文本,可以输出文本类别标签的概率系数。
一个文本的各个子句,亦可以分别输出子句类别标签的概率系数。本实施例中,计算机设备2可以以预指定的标点符合为分隔符分割目标文本以获取子句,并使用所述文本分析模型计算每一个子句的各个类别标签的概率系数,最后计算所有子句的子句类别标签的概率平均值或概率加权值,即综合概率系数。
基于所有子句的子句类别标签的综合概率系数和整个目标文本的各个文本类别标签的概率系数,共同决定目标文本最终的类别,可以有效地提高分类准确度。
另外,目标文本中的部分内容可能会出现反向表达的情况,例如“这个游戏可真优秀”,字面含义为夸奖游戏优秀,然而真实的态度是在嘲讽该游戏,因此为提高模型效果,还可以首先构造反向表达和正向表达数据集训练反向检测模型。基于反向检测模型识别文本中的反向表达方式,进一步提高分类准确度。
举例来说:在得到各个子句的各个子句类别标签的概率系数之后,根据各个子句是否存在反向表达的情况,来修正各个子句的各个子句类别标签的概率系数。
以子句A为例:
(1)如果子句A中存在反向表达的情况,则将子句A的各个子句类别标签的概率系数*0.5,以得到对应于子句A的修正后的子句类别标签的概率系数。
(2)如果子句A中不存在反向表达的情况,则不修正子句A的各个子句类别标签的概率系数。
最后,计算机设备2会对以下系数进行求均值、加权求和等操作:
(1)调整后的各个文本类别标签的概率系数;
(2)多个子句类别标签的综合概率系数,其中,每个子句类别标签的综合概率系数为:每个子句的经过反向表达修正后的子句类别标签的概率系数的平均值。
通过上述操作得到所述目标文本的文本分析结果,如好评、差评、中评,或积极等。
实施例二
图10示意性示出了根据本申请实施例二的文本分析系统的框图。该文本分析系统可以被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,以下描述将具体介绍本实施例中各程序模块的功能。
如图10所示,该文本分析系统1000可以包括输入模块1010、调整模块1020和获取模块1030,其中:
输入模块1110,用于:将目标文本输入到文本分析模型中,得到各个文本类别标签的概率系数;其中,所述文本分析模型为预先训练好的并用于分析文本类别的模型;
调整模块1120,用于:根据所述目标文本关联对象的历史数据,调整所述各个文本类别标签的概率系数;及
获取模块1130,用于:根据调整后的各个文本类别标签的概率系数,获取所述目标文本的文本分析结果。
作为可选的实施例,所述历史数据包括多个历史文本的类别,所述类别包括第一类别和其他类别;所述调整模块1120,还用于:
根据所述第一类别的数量和所述多个历史文本的数量,获取所述第一类别的出现概率;及
根据所述第一类别的出现概率,调整与所述第一类别对应的文本类别标签的概率系数。
作为可选的实施例,所述系统包括分析模块(未标识),用于:分析所述目标文本中多个子句的子句分析结果;
相应的,所述调整模块1120,还用于:根据所述目标文本中各个子句的子句分析结果以及所述调整后的各个文本类别标签的概率系数,获取所述目标文本的所述文本分析结果。
作为可选的实施例,所述分析模块,还用于:
从所述目标文本中分割出所述多个子句;
将所述多个子句各输入到所述文本分析模型中,得到所述各个子句的各个子句类别标签的概率系数;及
根据所述各个子句的各个子句类别标签的概率系数,获取所述各个子句类别标签的综合概率系数,其中所述各个子句类别标签的综合概率系数为所述子句分析结果。
作为可选的实施例,所述分析模块,还用于:
将所述各个子句分别输入到反向检测模型中,得到所述各个子句的反向检测结果;其中,所述反向检测模型为预先训练好的并用于分析正向/反向表达的模型;
根据所述各个子句的反向检测结果,调整所述各个子句的各个子句类别标签的概率系数;及
根据调整后的所述各个子句的各个子句类别标签的概率系数,获取所述各个子句类别标签的综合概率系数。
作为可选的实施例,所述系统包括训练模块(未标识),用于:
收集多个训练文本;
基于所述多个训练文本对BERT模型进行训练,得到初步文本分析模型;
基于转折词构造多个训练样本;及
进行所述多个训练样本对所述初步文本分析模型进行再次训练,得到所述文本分析模型。
作为可选的实施例,所述训练模块,还用于:
获取包括转折词的待构造文本;
获取所述待构造文本的目标部分,所述目标部分为位于转折词之后的文本内容;及
将所述目标部分添加到所述待构造文本的尾部,得到用于所述再次训练的训练样本。
实施例三
图11示意性示出了根据本申请实施例三的适于实现文本分析方法的计算机设备2的硬件架构示意图。本实施例中,计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图11所示,计算机设备2至少包括但不限于:可通过系统总线相互通信链接存储器10010、处理器10020、网络接口10030。其中:
存储器10010至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器10010可以是计算机设备2的内部存储模块,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器10010也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(FlashCard)等。当然,存储器10010还可以既包括计算机设备2的内部存储模块也包括其外部存储设备。本实施例中,存储器10010通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如文本分析方法的程序代码等。此外,存储器10010还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器10020在一些实施例中可以是中央处理器(Central Processing Unit,简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器10020通常用于控制计算机设备2的总体操作,例如执行与计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中,处理器10020用于运行存储器10010中存储的程序代码或者处理数据。
网络接口10030可包括无线网络接口或有线网络接口,该网络接口10030通常用于在计算机设备2与其他计算机设备之间建立通信链接。例如,网络接口10030用于通过网络将计算机设备2与外部终端相连,在计算机设备2与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图11仅示出了具有部件10010-10030的计算机设备,但是应该理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器10010中的文本分析方法还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器10020)所执行,以完成本申请实施例。
实施例四
本申请还提供一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现实施例中的文本分析方法的步骤。
本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中文本分析方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
显然,本领域的技术人员应该明白,上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请实施例不限制于任何特定的硬件和软件结合。
需要说明的是,以上仅为本申请的优选实施例,并非因此限制本申请的专利保护范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种文本分析方法,其特征在于,所述方法包括:
将目标文本输入到文本分析模型中,得到各个文本类别标签的概率系数;其中,所述文本分析模型为预先训练好的并用于分析文本类别的模型;
根据所述目标文本关联对象的历史数据,调整所述各个文本类别标签的概率系数;及
根据调整后的各个文本类别标签的概率系数,获取所述目标文本的文本分析结果;
其中调整所述各个文本类别标签的概率系数,包括:当一个关联对象的历史文本以第一类别居多,而此次的目标文本输出为第二类别,则将第二类别的概率上调。
2.根据权利要求1所述的文本分析方法,其特征在于,所述历史数据包括多个历史文本的类别,其中,所述类别包括第一类别和其他类别;所述根据所述目标文本关联对象的历史数据,调整所述各个文本类别标签的概率系数,包括:
根据所述第一类别的数量和所述多个历史文本的数量,获取所述第一类别的出现概率;及
根据所述第一类别的出现概率,调整与所述第一类别对应的文本类别标签的概率系数。
3.根据权利要求1所述的文本分析方法,其特征在于,
所述方法还包括:分析所述目标文本中多个子句的子句分析结果;
相应的,所述根据调整后的各个文本类别标签的概率系数,获取所述目标文本的文本分析结果,包括:根据所述目标文本中各个子句的子句分析结果以及所述调整后的各个文本类别标签的概率系数,获取所述目标文本的所述文本分析结果。
4.根据权利要求3所述的文本分析方法,其特征在于,所述分析所述目标文本中多个子句的子句分析结果,包括:
从所述目标文本中分割出所述多个子句;
将所述多个子句各输入到所述文本分析模型中,得到所述各个子句的各个子句类别标签的概率系数;及
根据所述各个子句的各个子句类别标签的概率系数,获取所述各个子句类别标签的综合概率系数,其中所述各个子句类别标签的综合概率系数为所述子句分析结果。
5.根据权利要求4所述的文本分析方法,其特征在于,所述根据所述各个子句的各个子句类别标签的概率系数,获取所述各个子句类别标签的综合概率系数,包括:
将所述各个子句分别输入到反向检测模型中,得到所述各个子句的反向检测结果;其中,所述反向检测模型为预先训练好的并用于分析正向/反向表达的模型;
根据所述各个子句的反向检测结果,调整所述各个子句的各个子句类别标签的概率系数;及
根据调整后的所述各个子句的各个子句类别标签的概率系数,获取所述各个子句类别标签的综合概率系数。
6.根据权利要求1至5任意一项所述的文本分析方法,其特征在于,还包括:
收集多个训练文本;
基于所述多个训练文本对BERT模型进行训练,得到初步文本分析模型;
基于转折词构造多个训练样本;及
进行所述多个训练样本对所述初步文本分析模型进行再次训练,得到所述文本分析模型。
7.根据权利要求6所述的文本分析方法,其特征在于,所述基于转折词构造多个训练样本,包括:
获取包括转折词的待构造文本;
获取所述待构造文本的目标部分,所述目标部分为位于转折词之后的文本内容;及
将所述目标部分添加到所述待构造文本的尾部,得到用于所述再次训练的训练样本。
8.一种文本分析系统,其特征在于,所述系统包括:
输入模块,用于:将目标文本输入到文本分析模型中,得到各个文本类别标签的概率系数;其中,所述文本分析模型为预先训练好的并用于分析文本类别的模型;
调整模块,用于:根据所述目标文本关联对象的历史数据,调整所述各个文本类别标签的概率系数;及
获取模块,用于:根据调整后的各个文本类别标签的概率系数,获取所述目标文本的文本分析结果;
其中调整所述各个文本类别标签的概率系数,包括:当一个关联对象的历史文本以第一类别居多,而此次的目标文本输出为第二类别,则将第二类别的概率上调。
9.一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时用于实现权利要求1至7中任意一项所述的文本分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行权利要求1至7中任意一项所述的文本分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111103923.6A CN113806542B (zh) | 2021-09-18 | 2021-09-18 | 文本分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111103923.6A CN113806542B (zh) | 2021-09-18 | 2021-09-18 | 文本分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113806542A CN113806542A (zh) | 2021-12-17 |
CN113806542B true CN113806542B (zh) | 2024-05-17 |
Family
ID=78896057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111103923.6A Active CN113806542B (zh) | 2021-09-18 | 2021-09-18 | 文本分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806542B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514174A (zh) * | 2012-06-18 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种文本分类方法和装置 |
CN106874291A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 文本分类的处理方法及装置 |
WO2017161899A1 (zh) * | 2016-03-24 | 2017-09-28 | 华为技术有限公司 | 一种文本处理方法、装置及计算设备 |
CN108009228A (zh) * | 2017-11-27 | 2018-05-08 | 咪咕互动娱乐有限公司 | 一种内容标签的设置方法、装置及存储介质 |
CN108388654A (zh) * | 2018-03-01 | 2018-08-10 | 合肥工业大学 | 一种基于转折句语义块划分机制的情感分类方法 |
CN109271521A (zh) * | 2018-11-16 | 2019-01-25 | 北京九狐时代智能科技有限公司 | 一种文本分类方法及装置 |
CN109684634A (zh) * | 2018-12-17 | 2019-04-26 | 北京百度网讯科技有限公司 | 情感分析方法、装置、设备及存储介质 |
CN110580335A (zh) * | 2018-06-07 | 2019-12-17 | 阿里巴巴集团控股有限公司 | 用户意图的确定方法及装置 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN111079405A (zh) * | 2019-11-29 | 2020-04-28 | 微民保险代理有限公司 | 文本信息识别方法、装置、存储介质和计算机设备 |
CN111159405A (zh) * | 2019-12-27 | 2020-05-15 | 北京工业大学 | 基于背景知识的讽刺检测方法 |
CN111382271A (zh) * | 2020-03-09 | 2020-07-07 | 支付宝(杭州)信息技术有限公司 | 文本分类模型的训练方法及装置、文本分类方法及装置 |
CN111931513A (zh) * | 2020-07-08 | 2020-11-13 | 泰康保险集团股份有限公司 | 一种文本的意图识别方法及装置 |
CN112182214A (zh) * | 2020-09-27 | 2021-01-05 | 中国建设银行股份有限公司 | 一种数据分类方法、装置、设备及介质 |
CN112182211A (zh) * | 2020-09-25 | 2021-01-05 | 国网电子商务有限公司 | 文本分类方法及装置 |
CN112632274A (zh) * | 2020-10-29 | 2021-04-09 | 中科曙光南京研究院有限公司 | 一种基于文本处理的异常事件分类方法及系统 |
CN112686022A (zh) * | 2020-12-30 | 2021-04-20 | 平安普惠企业管理有限公司 | 违规语料的检测方法、装置、计算机设备及存储介质 |
CN112800232A (zh) * | 2021-04-01 | 2021-05-14 | 南京视察者智能科技有限公司 | 基于大数据的案件自动分类、优化方法及训练集修正方法 |
CN112966110A (zh) * | 2021-03-17 | 2021-06-15 | 中国平安人寿保险股份有限公司 | 文本类别识别方法及相关设备 |
CN113159881A (zh) * | 2021-03-15 | 2021-07-23 | 杭州云搜网络技术有限公司 | 一种数据聚类及b2b平台客户偏好获取方法、系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3297282A1 (en) * | 2016-09-15 | 2018-03-21 | Thomson Licensing | Method and apparatus for video coding with adaptive clipping |
-
2021
- 2021-09-18 CN CN202111103923.6A patent/CN113806542B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514174A (zh) * | 2012-06-18 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种文本分类方法和装置 |
CN106874291A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 文本分类的处理方法及装置 |
WO2017161899A1 (zh) * | 2016-03-24 | 2017-09-28 | 华为技术有限公司 | 一种文本处理方法、装置及计算设备 |
CN108009228A (zh) * | 2017-11-27 | 2018-05-08 | 咪咕互动娱乐有限公司 | 一种内容标签的设置方法、装置及存储介质 |
CN108388654A (zh) * | 2018-03-01 | 2018-08-10 | 合肥工业大学 | 一种基于转折句语义块划分机制的情感分类方法 |
CN110580335A (zh) * | 2018-06-07 | 2019-12-17 | 阿里巴巴集团控股有限公司 | 用户意图的确定方法及装置 |
CN109271521A (zh) * | 2018-11-16 | 2019-01-25 | 北京九狐时代智能科技有限公司 | 一种文本分类方法及装置 |
CN109684634A (zh) * | 2018-12-17 | 2019-04-26 | 北京百度网讯科技有限公司 | 情感分析方法、装置、设备及存储介质 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN111079405A (zh) * | 2019-11-29 | 2020-04-28 | 微民保险代理有限公司 | 文本信息识别方法、装置、存储介质和计算机设备 |
CN111159405A (zh) * | 2019-12-27 | 2020-05-15 | 北京工业大学 | 基于背景知识的讽刺检测方法 |
CN111382271A (zh) * | 2020-03-09 | 2020-07-07 | 支付宝(杭州)信息技术有限公司 | 文本分类模型的训练方法及装置、文本分类方法及装置 |
CN111931513A (zh) * | 2020-07-08 | 2020-11-13 | 泰康保险集团股份有限公司 | 一种文本的意图识别方法及装置 |
CN112182211A (zh) * | 2020-09-25 | 2021-01-05 | 国网电子商务有限公司 | 文本分类方法及装置 |
CN112182214A (zh) * | 2020-09-27 | 2021-01-05 | 中国建设银行股份有限公司 | 一种数据分类方法、装置、设备及介质 |
CN112632274A (zh) * | 2020-10-29 | 2021-04-09 | 中科曙光南京研究院有限公司 | 一种基于文本处理的异常事件分类方法及系统 |
CN112686022A (zh) * | 2020-12-30 | 2021-04-20 | 平安普惠企业管理有限公司 | 违规语料的检测方法、装置、计算机设备及存储介质 |
CN113159881A (zh) * | 2021-03-15 | 2021-07-23 | 杭州云搜网络技术有限公司 | 一种数据聚类及b2b平台客户偏好获取方法、系统 |
CN112966110A (zh) * | 2021-03-17 | 2021-06-15 | 中国平安人寿保险股份有限公司 | 文本类别识别方法及相关设备 |
CN112800232A (zh) * | 2021-04-01 | 2021-05-14 | 南京视察者智能科技有限公司 | 基于大数据的案件自动分类、优化方法及训练集修正方法 |
Non-Patent Citations (5)
Title |
---|
A Research on Rebalance Algorithm for Imbalanced Data Based on Probability Graph;Gang Chen 等;2020 Chinese Control And Decision Conference(CCDC);20200824;3443-3448 * |
代大明 ; 王中卿 ; 李寿山 ; 李培峰 ; 朱巧明 ; .基于情绪词的非监督中文情感分类方法研究.中文信息学报.2012,(第04期),103-108. * |
基于自学习向量空间模型文本分类算法的研究与应用;张志强;;《软件》;20160915(第 9 期);118-121 * |
基于隐马尔科夫模型的文本分类;刘晓飞 等;《石家庄铁道大学学报(自然科学版)》;20130325;第 26 卷(第 1 期);101-105+110 * |
改进的AdaBoost算法与SVM的组合分类器;李亚军 等;《计算机工程与应用》;20081111;140-142 * |
Also Published As
Publication number | Publication date |
---|---|
CN113806542A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114372477B (zh) | 文本识别模型的训练方法、文本识别方法及装置 | |
CN110502976B (zh) | 文本识别模型的训练方法及相关产品 | |
CN111753076B (zh) | 对话方法、装置、电子设备及可读存储介质 | |
CN112650841A (zh) | 信息处理方法、装置和电子设备 | |
CN111368551B (zh) | 一种确定事件主体的方法和装置 | |
CN112948626B (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN111506717B (zh) | 问题答复方法、装置、设备及存储介质 | |
CN112084301A (zh) | 文本修正模型的训练方法及装置、文本修正方法及装置 | |
CN116450937A (zh) | 推荐、推荐模型的训练方法、装置、电子设备及存储介质 | |
CN117273173A (zh) | 基于大语言模型的实体推荐方法、装置、设备及存储介质 | |
CN113806542B (zh) | 文本分析方法及系统 | |
CN116644180A (zh) | 文本匹配模型的训练方法、训练系统和文本标签确定方法 | |
WO2022188563A1 (zh) | 动态封面设置方法和系统 | |
CN115186666A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN115563281A (zh) | 基于文本数据增强的文本分类方法及装置 | |
CN115576789A (zh) | 流失用户识别方法和系统 | |
CN112182179B (zh) | 实体问答处理方法、装置、电子设备和存储介质 | |
CN112417260B (zh) | 本地化推荐方法、装置及存储介质 | |
CN113360761A (zh) | 信息流推荐方法、装置、电子设备和计算机可读存储介质 | |
CN113656573B (zh) | 文本信息生成方法、装置、终端设备 | |
CN114492457B (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN118095426B (zh) | 点击行为预测模型训练方法、装置、电子设备与可读介质 | |
CN118230224B (zh) | 标签打分方法、标签打分模型训练方法和装置 | |
US20230128346A1 (en) | Method, device, and computer program product for task processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |