CN116975299A - 文本数据的判别方法、装置、设备及介质 - Google Patents
文本数据的判别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116975299A CN116975299A CN202311227871.2A CN202311227871A CN116975299A CN 116975299 A CN116975299 A CN 116975299A CN 202311227871 A CN202311227871 A CN 202311227871A CN 116975299 A CN116975299 A CN 116975299A
- Authority
- CN
- China
- Prior art keywords
- text data
- target
- classification
- text
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012850 discrimination method Methods 0.000 title claims description 17
- 238000013145 classification model Methods 0.000 claims abstract description 215
- 238000000034 method Methods 0.000 claims abstract description 95
- 238000000605 extraction Methods 0.000 claims abstract description 85
- 238000012545 processing Methods 0.000 claims description 65
- 238000012549 training Methods 0.000 claims description 55
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 abstract description 20
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 230000006870 function Effects 0.000 description 46
- 239000013598 vector Substances 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 101150071100 CBY2 gene Proteins 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Abstract
本申请公开了一种文本数据的判别方法、装置、设备及介质,获取待判别的目标文本数据,先使用文本分类模型对目标文本数据进行分类预测,得到表征目标文本数据是否属于目标业务域的第一分类结果;然后,通过实体关系抽取模型对目标文本数据进行实体识别和关系抽取,确定其中包含的目标实体以及目标实体之间的目标关系,根据目标实体是否属于目标业务域,以及目标关系是否符合预设的关系类型,对目标文本数据进行细致的再次筛选,从而确定出实际符合业务需求的目标文本数据为有效数据。本申请能够有效文本数据的判别准确度,方便高效地收集目标业务域内的信息。本申请的技术方案可广泛应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本数据的判别方法、装置、设备及介质。
背景技术
当前,随着信息技术的发展,业务数据的获取和传输在各类应用中的使用越来越广泛。例如,在地图导航应用中,需要经常从互联网各个渠道获取关于道路的状态信息,比如说道路是否可以通行、是否存在拥堵情况等,从而方便及时更新地图内的导航显示信息,为人们提供可靠、高效的出行指引功能。
相关技术中,在收集某个业务域内的信息时,一般需要对信息的有效性进行判别,即通过信息的文本数据判别信息是否符合实际的业务需求,从而剔除无关信息或者干扰信息,筛选出真正有用的信息。当前,一般采用机器学习/深度学习对文本数据的有效性进行判别。但是,在实际处理中发现,即使是属于某个业务域内的信息,其对应的文本数据也会存在有大量的无关内容,在使用机器学习/深度学习时,模型可能会错误关注到这些无关内容,导致判别结果出错,影响信息的正常获取和使用,提高了信息的处理成本。
综上,相关技术中存在的技术问题有待得到改善。
发明内容
本申请实施例提供了一种文本数据的判别方法、装置、设备及介质,能够有效文本数据的判别准确度,方便高效地收集目标业务域内的信息,有利于降低信息的处理成本。
本申请实施例的一方面提供了一种文本数据的判别方法,所述方法包括:
获取待判别的目标文本数据;
通过文本分类模型对所述目标文本数据进行分类预测,得到第一分类结果;其中,所述第一分类结果用于表征所述文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;
若所述第一分类结果表征所述目标文本数据属于所述目标业务域,通过实体关系抽取模型对所述目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对所述目标文本数据进行关系抽取,得到所述目标实体之间的目标关系;
若所述目标实体属于所述目标业务域,且所述目标关系符合预设的关系类型,确定所述目标文本数据为有效数据。
另一方面,本申请实施例提供了一种文本数据的判别装置,所述装置包括:
获取单元,用于获取待判别的目标文本数据;
分类单元,用于通过文本分类模型对所述目标文本数据进行分类预测,得到第一分类结果;其中,所述第一分类结果用于表征所述文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;
识别单元,用于若所述第一分类结果表征所述目标文本数据属于所述目标业务域,通过实体关系抽取模型对所述目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对所述目标文本数据进行关系抽取,得到所述目标实体之间的目标关系;
处理单元,用于若所述目标实体属于所述目标业务域,且所述目标关系符合预设的关系类型,确定所述目标文本数据为有效数据。
可选地,所述装置还包括预处理单元,所述预处理单元具体用于:
对所述目标文本数据进行去重处理;
或者,检测所述目标文本数据中是否包含预设的关键词,若所述目标文本数据不包括所述关键词,确定所述目标文本数据为无效数据。
可选地,所述预处理单元具体用于:
检测参考文本数据和所述目标文本数据之间的相似度;其中,所述参考文本数据为除所述目标文本数据以外的其他文本数据;
若所述参考文本数据和所述目标文本数据之间的相似度大于或者等于预设的相似度阈值,检测所述参考文本数据是否为已判别过的文本数据;
若所述参考文本数据为已判别过的文本数据,重新获取新的待判别的目标文本数据;或者,若所述参考文本数据为未判别过的文本数据,删除所述参考文本数据。
可选地,所述文本分类模型包括第一文本分类模型和第二文本分类模型;所述分类单元具体用于:
将所述目标文本数据输入到所述第一文本分类模型和所述第二文本分类模型中;
通过所述第一文本分类模型对所述目标文本数据进行分类预测,得到第二分类结果;所述第二分类结果用于表征所述第一文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;
通过所述第二文本分类模型对所述目标文本数据进行分类预测,得到第三分类结果;所述第三分类结果用于表征所述第二文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;
若所述第二分类结果表征所述目标文本数据属于目标业务域且所述第三分类结果表征所述目标文本数据属于目标业务域,将所述第一分类结果确定为表征所述目标文本数据属于目标业务域的预测结果;或者若所述第二分类结果表征所述目标文本数据不属于目标业务域,或者所述第三分类结果表征所述目标文本数据不属于目标业务域,将所述第一分类结果确定为表征所述目标文本数据不属于目标业务域的预测结果。
可选地,所述分类单元具体用于:
从所述目标文本数据的起始位置开始截取第一长度的数据内容,得到第一文本数据;
从所述目标文本数据的起始位置开始截取第二长度的数据内容,得到第二文本数据;
将所述第一文本数据输入到所述第一文本分类模型中,以及将所述第二文本数据输入到所述第二文本分类模型中;
其中,所述第一长度小于第三长度,所述第二长度大于所述第三长度;所述第三长度为所述目标文本数据的总长度的一半。
可选地,所述分类单元具体用于:
对所述目标文本数据进行分词处理,得到所述目标文本数据对应的第一词组,并确定所述第一词组中各个词对应的第一词特征数据;
根据所述第一词组中各个词对应的第一词特征数据,通过所述第一文本分类模型进行分类预测,得到所述第二分类结果。
可选地,所述分类单元具体用于:
根据所述第一词组中各个词对应的第一词特征数据,确定所述目标文本数据对应的文本特征数据;
根据所述文本特征数据,通过所述第一文本分类模型进行分类预测,得到所述第二分类结果。
可选地,所述分类单元具体用于:
通过所述第一文本分类模型进行分类预测,得到所述第一文本分类模型输出的概率值;所述概率值用于表征所述第一文本分类模型预测所述目标文本数据属于目标业务域的概率;
若所述概率值大于或者等于预设的概率阈值,将所述第二分类结果确定为表征所述目标文本数据属于目标业务域的预测结果;或者,若所述概率值小于所述概率阈值,将所述第二分类结果确定为表征所述目标文本数据不属于目标业务域的预测结果。
可选地,所述识别单元具体用于:
对所述目标文本数据进行语句分割处理,得到多个目标语句;
对各个所述目标语句进行分词处理,得到所述目标语句对应的第二词组,并确定所述第二词组中各个词对应的第二词特征数据;
根据所述第二词组中各个词对应的第二词特征数据,通过所述实体关系抽取模型对所述目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对所述目标文本数据进行关系抽取,得到所述目标实体之间的目标关系。
可选地,所述装置还包括训练单元,所述训练单元具体用于:
获取训练数据集;所述训练数据集中包括批量的样本文本数据和各个所述样本文本数据对应的标签信息;其中,所述标签信息用于表征所述样本文本数据属于第一业务域或者所述样本文本数据不属于第一业务域的真实结果;
将所述样本文本数据输入到待训练的文本分类模型中,通过所述待训练的文本分类模型对所述样本文本数据进行分类预测,得到第四分类结果;其中,所述第四分类结果用于表征所述文本分类模型对所述样本文本数据属于第一业务域或者所述样本文本数据不属于第一业务域的预测结果;
根据所述标签信息和所述第四分类结果,确定预测的第一损失值;
根据所述第一损失值,对所述待训练的文本分类模型进行参数更新,得到训练好的文本分类模型。
可选地,所述训练单元还用于:
从所述样本文本数据确定若干第三文本数据;所述第三文本数据对应的所述标签信息表征所述第三文本数据属于第一业务域;
对所述第三文本数据进行扩充处理,所述扩充处理至少包括以下一种步骤:
对所述第三文本数据中的至少一个词语进行同义词替换处理;
或者,复制所述第三文本数据中的至少一个词语,并将复制的词语插入到所述第三文本数据中;
或者,交换所述第三文本数据中至少两个词语之间的位置;
或者,删除所述第三文本数据除预设的关键词以外的至少一个词语。
另一方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储计算机程序;
所述处理器执行所述计算机程序实现前述的文本数据的判别方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行实现前述的文本数据的判别方法。
本申请实施例至少包括以下有益效果:本申请提供一种文本数据的判别方法、装置、设备及介质,获取待判别的目标文本数据,先使用文本分类模型对目标文本数据进行分类预测,得到表征目标文本数据是否属于目标业务域的第一分类结果,通过文本分类模型对目标文本数据进行初步的筛选,检测出属于目标业务域的目标文本数据;然后,通过实体关系抽取模型对目标文本数据进行实体识别和关系抽取,确定其中包含的目标实体以及目标实体之间的目标关系,根据目标实体是否属于目标业务域,以及目标关系是否符合预设的关系类型,对目标文本数据进行细致的再次筛选,从而确定出实际符合业务需求的目标文本数据为有效数据。本申请中的技术方案,结合文本分类模型和实体关系抽取模型对目标文本数据的有效性进行判别,能够有效文本数据的判别准确度,方便高效地收集目标业务域内的信息,有利于降低信息的处理成本。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例中提供的一种文本数据的判别方法的实施环境示意图;
图2为本申请实施例提供的一种文本数据的判别方法的流程示意图;
图3为本申请实施例中提供的一种通过文本分类模型得到第一分类结果的示意图;
图4为本申请实施例中提供的一种将目标文本数据输入到第一文本分类模型和第二文本分类模型中的流程示意图;
图5为本申请实施例提供的一种文本分类模型的训练流程示意图;
图6为本申请实施例提供的一种文本数据的判别方法的具体流程示意图;
图7为本申请实施例提供的一种文本分类模型的示意图;
图8为本申请实施例提供的另一种文本分类模型的示意图;
图9为本申请实施例中提供的一种实体关系抽取模型的示意图;
图10为本申请实施例提供的一种文本数据的判别装置的结构示意图;
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请实施例相一致的所有实施方式,它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。例如,在不脱离本申请实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“若”、“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,每个是指对应的多个中的每一个,任一是指多个中的任意一个。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在对本申请实施例进行详细说明之前,首先对本申请实施例中涉及的部分名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
2)机器学习(Machine Learning,ML),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,机器学习(深度学习)通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
3)自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,自然语言处理是一门融语言学、计算机科学、数学于一体的科学。这一领域涉及的自然语言即人们日常使用的语言,所以它与语言学的研究也有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
4)命名实体识别模型(Named Entity Recognition,NER),一种可以在文本数据中标注和识别出命名实体(如人名、地名、组织机构等)的技术,命名实体识别模型通常是基于机器学习和深度学习的方法构建的。命名实体识别模型可以扩展为实体关系抽取模型,除了识别出实体,实体关系抽取模型还可以抽取实体之间的关系,具体可以根据两个实体之间的语义和上下文信息,判断它们之间的关系。
5)BERT(Bidirectional Encoder Representations from Transformers)模型,由谷歌提出的一种基于Transformer架构的预训练语言模型。它通过大规模的无监督学习,从大量的文本数据中学习通用的语言表示,将其转化为固定长度的向量表示,适用于各种自然语言处理任务。
6)区块链(Blockchain),是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链可以包括公有链、联盟链以及私有链,其中,公有链是指任何人均可以随时进入到区块链网络中读取数据、发送数据或竞争记账的区块链;联盟链是指若干组织或机构共同参与管理的区块链;私有链是指存在一定的中心化控制的区块链,私有链的账本的写入权由某个组织或机构控制,数据的访问和使用有严格的权限管理。
当前,随着信息技术的发展,业务数据的获取和传输在各类应用中的使用越来越广泛。例如,在地图导航应用中,需要经常从互联网各个渠道获取关于道路的状态信息,比如说道路是否可以通行、是否存在拥堵情况等,从而方便及时更新地图内的导航显示信息,为人们提供可靠、高效的出行指引功能。
相关技术中,在收集某个业务域内的信息时,一般需要对信息的有效性进行判别,即通过信息的文本数据判别信息是否符合实际的业务需求,从而剔除无关信息或者干扰信息,筛选出真正有用的信息。当前,一般采用机器学习/深度学习对文本数据的有效性进行判别。但是,在实际处理中发现,即使是属于某个业务域内的信息,其对应的文本数据也会存在有大量的无关内容,在使用机器学习/深度学习时,模型可能会错误关注到这些无关内容,导致判别结果出错,影响信息的正常获取和使用,提高了信息的处理成本。
示例性地,比如说,在收集道路开通或者封闭等状态信息时,可能存在有采集的有效信息内容为“根据项目建设需要,决定对A道路进行封闭式施工。封闭时间从2023年1月1日开始,具体开放时间另行通知;期间,区域内暂停对外开放,带来不便之处,敬请谅解,特此通告”,其中,除了包含有“A道路”、“封闭式施工”、“封闭时间”等能够体现业务域、符合业务需求的内容外,还包括有“根据项目建设需要”、“带来不便之处,敬请谅解,特此通告”等无关内容,这些无关内容可能导致模型在判别时出现预测结果错误的问题。例如,某个信息的内容为“根据项目建设需要,对网站进行停机更新,带来不便之处,敬请谅解,特此通告”,由于其和前面的有效信息具有较多重合的无关内容,模型可能会因为错误关注这些重合的无关内容把该无效信息也判别为有效信息,如此,将会影响信息的正常获取和使用,提高了信息的处理成本。
有鉴于此,本申请实施例中提供一种文本数据的判别方法、装置、设备及介质,获取待判别的目标文本数据,先使用文本分类模型对目标文本数据进行分类预测,得到表征目标文本数据是否属于目标业务域的第一分类结果,通过文本分类模型对目标文本数据进行初步的筛选,检测出属于目标业务域的目标文本数据;然后,通过实体关系抽取模型对目标文本数据进行实体识别和关系抽取,确定其中包含的目标实体以及目标实体之间的目标关系,根据目标实体是否属于目标业务域,以及目标关系是否符合预设的关系类型,对目标文本数据进行细致的再次筛选,从而确定出实际符合业务需求的目标文本数据为有效数据。本申请中的技术方案,结合文本分类模型和实体关系抽取模型对目标文本数据的有效性进行判别,能够有效文本数据的判别准确度,方便高效地收集目标业务域内的信息,有利于降低信息的处理成本。
本申请实施例中所提供的文本数据的判别方法,主要涉及云技术、人工智能、智慧交通、辅助驾驶等各种应用场景。本领域技术人员可以理解的是,本申请实施例中所提供的文本数据的判别方法,可以在各类应用场景中被执行:
示例性地,在一些实施例中,本申请中的文本数据的判别方法可以应用在社交媒体情感分析的场景中,社交媒体情感分析可以了解对象对某个话题、产品或事件的态度,这对于品牌管理、市场调研和商务运营非常重要,可以帮助企业了解对象的需求和反馈,进行精准营销和产品优化。在该应用场景中,可以使用本申请实施例中提供的文本数据的判别方法,对收集到的信息是否属于对象表达情感或情绪的文本数据进行判别,从而确定文本数据的有效性,方便收集到能够体现对象情感的文本数据。
示例性地,在一些实施例中,本申请中的文本数据的判别方法可以应用在人工智能领域的训练数据收集的场景中,在人工智能领域中,机器学习/深度学习的训练需要使用到大规模的训练数据,这些训练数据往往需要符合某些特定的业务场景。其中,文本数据也可以作为训练数据的一种数据形式,当使用文本数据作为训练数据时,判别文本数据的有效性是非常重要的,如果文本数据不符合训练的人工智能模型的应用场景,可能会影响到人工智能模型的性能。在该应用场景中,可以使用本申请实施例中提供的文本数据的判别方法,分析文本形式的训练数据是否符合预定的业务需求,从而改善训练得到人工智能模型的性能。
可以理解的是,以上的应用场景仅起到示例性的作用,并不意味着对本申请实施例中文本数据的判别方法的实际应用形成限制。本领域技术人员可以理解,在不同应用场景中,都可以利用本申请实施例中提供的文本数据的判别方法执行指定的任务。
本申请实施例中提供的文本数据的判别方法,至少具有以下有益效果:提升收集到的文本数据的质量:本申请实施例中,通过判别文本数据的有效性,可以过滤掉无关信息或干扰信息,提高文本数据的准确性和可信度;方便提供个性化的数据收集服务:本申请实施例中,可以自行指定需要判别的业务域、实体以及相关实体的关系类型,能够帮助信息收集者高效地收集需要的文本数据。
需要补充说明的是,在本申请的各个具体实施方式中,当涉及到需要根据对象的信息、对象的行为数据、对象的历史数据以及对象的位置信息等与对象身份或特性相关的数据进行相关处理时,都会先获得对象的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。此外,当本申请实施例需要获取对象的敏感信息时,会通过弹窗或者跳转到确认页面等方式获得对象的单独许可或者单独同意,在明确获得对象的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的对象相关数据。
下面结合附图,对本申请实施例的具体实施方式进行详细说明。首先,结合附图描述本申请实施例中提供的一种文本数据的判别方法。
请参照图1,图1示出了本申请实施例中提供的一种文本数据的判别方法的实施环境示意图。在该实施环境中,主要涉及的软硬件主体包括终端设备110、后台服务器120。
具体地,终端设备110中可以安装有相关的应用程序,该应用程序可以用于执行本申请实施例中提供的文本数据的判别方法,后台服务器120可以是该应用程序的后台服务器。终端设备110、后台服务器120之间通信连接。本申请实施例中提供的文本数据的判别方法,可以单独在终端设备110侧执行,也可以单独在后台服务器120侧执行,或者基于终端设备110和后台服务器120之间的数据交互来执行。
示例性地,以本申请实施例中提供的文本数据的判别方法基于终端设备110和后台服务器120之间的数据交互来执行为例,终端设备110可以获取待判别的目标文本数据,然后将目标文本数据传输到后台服务器120;后台服务器120可以调用文本分类模型对目标文本数据进行分类预测,得到第一分类结果,当后台服务器120确定第一分类结果表征目标文本数据属于目标业务域,可以继续调用实体关系抽取模型对目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对目标文本数据进行关系抽取,得到目标实体之间的目标关系;当后台服务器120确定目标实体属于目标业务域,且目标关系符合预设的关系类型,可以将目标文本数据判别为有效数据,并将判别的结果反馈给终端设备110,终端设备110上可以显示得到的判别结果。
其中,以上实施例的终端设备110可以包括手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。
后台服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
另外,后台服务器120还可以是区块链网络中的一个节点服务器。
终端设备110和后台服务器120之间可以通过无线网络或有线网络建立通信连接。该无线网络或有线网络使用标准通信技术和/或协议,网络可以设置为因特网,也可以是其它任何网络,例如包括但不限于局域网(Local Area Network,LAN)、城域网(MetropolitanArea Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。并且,上述的这些软硬件主体之间,既可以采用相同的通信连接方式,也可以采用不同的通信连接方式,本申请对此不作具体限制。
当然,可以理解的是,图1中的实施环境只是本申请实施例中提供的文本数据的判别方法一些可选的应用场景,实际的应用并不固定为图1所示出的软硬件环境。本申请实施例提供的方法可应用于各种技术领域,例如云技术、人工智能、智慧交通、辅助驾驶等领域,本申请对此不作具体限制。
下面,结合上述对实施环境的描述,对本申请实施例中提供的一种文本数据的判别方法进行详细介绍和说明。
如图2所示,本申请实施例中,提供了一种文本数据的判别方法,该文本数据的判别方法可以应用于图1所示的终端设备110或者后台服务器120中。参照图2,本申请实施例中提供的文本数据的判别方法,具体包括但不限于步骤210至步骤240:
步骤210、获取待判别的目标文本数据;
本步骤中,在执行本申请实施例中提供的文本数据的判别方法时,可以获取待判别的文本数据,本申请中将其记为目标文本数据。目标文本数据具体的获取方式可以根据需要灵活设定。在本步骤中,目标命令信息可以从本地获取,也可以从云端获取,本申请实施例对此不作限制。
具体地,在一些实施例中,目标文本数据可以是从互联网的各类信息渠道中采集得到的,例如,可以从互联网上的网页、论坛、博客或者社交媒体等平台中获取相关的文本数据作为目标文本数据。在一些实施例中,目标文本数据也可以是由应用程序的开发测试人员自行上传的,以图1所示出的实施场景为例,用于进行文本数据判别的应用程序的开发测试人员,可以根据需求编辑待判别的目标文本数据,将其输入到运行应用程序的终端设备中,应用程序通过执行本申请实施例中提供的文本数据的判别方法,可以得到对应的判别结果,该判别结果表征目标文本数据是否为有效数据。开发测试人员可以根据输入的目标文本数据实际是否为有效数据,和应用程序给出的判别结果进行比较,判断应用程序是否能够有效执行本申请实施例中提供的文本数据的判别方法,从而方便对文本数据的判别方法涉及的相关程序代码进行优化和更新,以改善应用程序的性能。
本申请实施例中,对于获取的目标文本数据所涉及的语种不作限制,例如,其所包含的内容可以包括“汉语”、“英语”、“法语”和“德语”等至少一种语种的文本数据。并且,对于目标文本数据中所包含的词语的数目不作限制,即目标文本数据的长度可以是任意的。
需要说明的是,本申请实施例中,目标文本数据的数量可以是多个,区分不同目标文本数据的方式可以根据需求来实现。示例性地,对于不同渠道获取的目标文本数据,可以将它们作为不同的目标文本数据来处理;对于相同渠道获取的目标文本数据,既可以将它们作为一个目标文本数据来处理,也可以根据目标文本数据的发布者、获取时间节点等情况,将它们划分为多个不同的目标文本数据,本申请实施例对此不作限制。
需要注意的是,本申请实施例中,在获取目标文本数据时,需要确保目标文本数据获取的合规性,即需要遵循相关的法律法规,保护相关对象的隐私和数据安全性。
步骤220、通过文本分类模型对目标文本数据进行分类预测,得到第一分类结果;其中,第一分类结果用于表征文本分类模型对目标文本数据属于目标业务域或者目标文本数据不属于目标业务域的预测结果;
本步骤中,对于获取得到的目标文本数据,可以使用分类模型对其进行分类预测,此处,将使用的分类模型记为文本分类模型,通过文本分类模型对目标文本数据进行分类预测,可以得到一个分类结果,本申请实施例中,将该结果记为第一分类结果。第一分类结果用于表征文本分类模型对目标文本数据是否属于目标业务域的预测结果,这里的目标业务域为事先指定的、需要获取的文本数据所处的业务域。具体地,业务域表示文本数据所涉及的专业领域范围,例如,可以将金融领域、医疗领域、交通领域、教育领域、电子商务领域作为目标业务域。通过文本分类模型对目标文本数据进行分类预测,即判别目标文本数据是否是涉及事先设定的目标业务域的文本数据,如果目标文本数据和目标业务域相关,则可以认为目标文本数据属于目标业务域;反之,如果目标文本数据和目标业务域不相关,则可以认为目标文本数据不属于目标业务域。
可以理解的是,本申请实施例中,对于目标业务域的种类以及具体涵盖的领域范围不作限制,其可以根据需要灵活设定。示例性地,在一些实施例中,可以对一些较大的业务域进行进一步的细分,以某个细分的业务域作为目标业务域,比如说对于医疗业务域,其可以进一步细分为医院业务域、医学论文业务域、临床试验业务域、药品业务域等;对于教育业务域,其可以进一步细分为学校业务域、教材业务域、课程安排业务域、学生管理业务域、教育政策业务域、培训辅导业务域等;对于电子商务业务域,其可以进一步细分为产品业务域、订单业务域、推广信息业务域、评价信息业务域等。
当然,可以理解的是,以上实施例仅用于对本申请所涉及的业务域的概念进行示例性的说明,并不意味着对其具体的种类和领域范围进行限制。并且,本申请实施例中,目标业务域可以是一个独立的业务域,也可以是多个不同的业务域的组合。在实际设定目标业务域时,可以从前述列举的业务域或者其他的业务域中任意选择一个或者多个作为目标业务域,本申请对此不作限制。
本申请实施例中,第一分类结果既可以是文本分类模型直接输出的结果,也可以是根据文本分类模型的输出进一步处理得到的结果。示例性地,以第一分类结果为文本分类模型直接输出的结果为例,本申请实施例中,对于第一分类结果的数据形式以及其所对应的含义不作限制。比如说,在一些实施例中,第一分类结果的数据形式可以是数值,比如说数值0和数值1。当第一分类结果为数值0时,可以表示文本分类模型预测目标文本数据不属于目标业务域;当第一分类结果为数值1时,可以表示文本分类模型预测目标文本数据属于目标业务域。在另一些实施例中,第一分类结果的数据形式可以是向量,比如说向量(0,1)和向量(1,0)。类似地,当第一分类结果为向量(0,1)时,可以表示文本分类模型预测目标文本数据不属于目标业务域;当第一分类结果为向量(1,0)时,可以表示文本分类模型预测目标文本数据属于目标业务域。可以理解的是,本申请实施例中,第一分类结果的数据格式可以包括数字、向量、矩阵或者张量中的至少一种,本申请对此不做限制。
本申请实施例中,对于文本分类模型所采用的模型结构和训练算法不作限制,其可以根据需要灵活设定。示例性地,在一些实施例中,该文本分类模型可以采用二分类模型,或者采用多分类模型、多标签模型等,本申请对此不作限制。
需要说明的是,由于目标文本数据中可能存在有和目标业务域无关的内容,因此,仅仅通过文本分类模型判别目标文本数据是否属于目标业务域,存在有准确度偏低的问题。本申请实施例中,后续还进一步结合实体关系抽取模型对目标文本数据的有效性进行判别,这部分内容将在步骤230和步骤240介绍。
步骤230、若第一分类结果表征目标文本数据属于目标业务域,通过实体关系抽取模型对目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对目标文本数据进行关系抽取,得到目标实体之间的目标关系;
如前面所描述的,仅仅通过文本分类模型判别目标文本数据是否属于目标业务域,存在有准确度偏低的问题。对于该问题,本步骤中,进一步使用实体关系抽取模型来对目标文本数据进行实体识别和关系抽取,通过实体识别,可以确定出目标文本数据包含的一些实体内容;而通过关系抽取,则可以确定出识别到的实体之间的关系,本申请实施例中,将识别到的实体记为目标实体,目标实体之间的目标关系记为目标关系。
具体地,本申请实施例中,对于使用的实体关系抽取模型的种类不作限制。示例性地,在一些实施例中,实体关系抽取模型可以采用TPLinker(Triple Pointer Linker)模型,TPLinker模型是一种基于指针网络的实体关系抽取模型。它采用了一个双指针机制来解决实体边界识别和关系分类的问题。在实现原理上,TPLinker模型通过指针网络识别出实体的起始和结束位置,从而确定出文本数据内的实体;然后使用关系分类器预测实体之间的关系。在一些实施例中,实体关系抽取模型可以采用Spert模型,Spert模型是一种基于预训练的语言模型(如BERT)和跨度解析的实体关系抽取模型。它通过将文本数据划分为跨度(span),然后使用预训练的语言模型对每个跨度进行编码,最后通过多头注意力机制和线性层来预测实体之间的关系。Spert模型可以有效地处理多个实体之间的交叉关系,并且能够利用预训练的语言模型提取丰富的语义信息,处理的精度相对较高。在一些实施例中,实体关系抽取模型可以采用多头选择模型(Multi-head selection model),多头选择模型是一种基于多头注意力机制的实体关系抽取模型。它通过将文本数据转化为词向量表示,并使用多个注意力头来捕捉实体之间的特征和关系。每个注意力头都可以学习不同方面的关系信息,然后通过线性层和softmax函数进行分类,得到实体之间的关系。
当然,可以理解的是,以上的模型种类仅为本申请实施例中实体关系抽取模型的一些可选的实现方式,并不意味着对本申请实施例中的实体关系抽取模型的实际应用进行限制,本领域技术人员可以根据需求,灵活选取合适的实体关系抽取模型实现对目标文本数据的处理,本申请对此不作限制。
步骤240、若目标实体属于目标业务域,且目标关系符合预设的关系类型,确定目标文本数据为有效数据。
本步骤中,在得到目标实体和目标关系后,可以基于这些信息进一步判断目标文本数据是否符合业务需求,也即是否为有效数据。具体地,可以理解的是,如果目标实体不属于目标业务域,也即目标实体和目标业务域无关,则说明该目标实体和预定的业务需求无关,属于无关内容。示例性地,比如说,当设定的目标业务域为金融业务域时,如果某个目标实体为“XW小学”,则该目标实体明显不属于目标业务域;而如果某个目标实体为“基金”,则该目标实体属于目标业务域。
具体地,本申请实施例中,在判断目标实体是否属于目标业务域时,可以事先确定目标业务域的范围和特征,比如说可以为每个目标业务域设定对应的实体集合,如果目标实体在目标业务域对应的实体集合内,则说明目标实体属于目标业务域。当然,在一些实施例中,也可以对目标实体进行分类,根据目标实体的分类结果来确定其是否属于目标业务域,本申请对此不作限制。
本步骤中,如果目标实体属于目标业务域,说明该目标实体和预定的业务需求相关,但是,仍存在有目标实体涉及的相关内容属于干扰信息的情况。示例性地,比如说,当前需要采集的文本数据是涉及对基金操作相关的信息,如果某个目标文本数据中的内容包括“理财产品包括有基金”,其中不涉及对基金操作的内容,只是提到了基金这一实体,那么该目标文本数据实际上并不属于需要采集的文本数据,需要将其判别为无效数据。因此,本申请实施例中,还预先设置了和业务需求相关的关系类型,用于进一步判别目标文本数据是否为有效数据。
具体地,这里的关系类型可以用于限定和目标实体相关的关联信息,当目标实体对应的目标关系中存在符合预设的关系类型的情况时,说明该目标文本数据涉及需要采集的信息内容,属于有效数据。示例性地,比如说,对于前述目标实体为“基金”的情况,可以预先设定关系类型包括“购买、卖出、转换、定投”等,如此,当目标文本数据中存在涉及基金操作相关的信息时,可以确定目标关系符合预设的关系类型,从而将目标文本数据确定为有效数据。当然,对于不同的目标实体,其对应的关系类型可以存在区别,具体可以根据需要灵活设置,本申请对此不作限制。
需要说明的是,在目标文本数据中,可能识别到多个目标实体,且目标实体之间可能存在有多种目标关系。在根据目标实体和目标关系对目标文本数据的有效性进行判别时,只需要存在属于目标业务域的目标实体,且该目标实体对应的目标关系中存在符合预设的关系类型,即可说明目标文本数据属于有效数据。在实际判别过程中,可以先对目标实体进行判别,快速确定出属于目标业务域的一些目标实体;然后,针对属于目标业务域的目标实体,逐个检测其对应的目标关系中是否存在符合预设的关系类型的情况,如果当前的目标实体对应的标关系都不符合预设的关系类型,则继续检测下一个目标实体,直至检测到目标关系符合预设的关系类型的情况时,可以确定目标文本数据为有效数据。如果所有的目标实体均检测完毕,各个目标实体对应的目标关系都不符合预设的关系类型,则可以确定目标文本数据为无效数据。
可以理解的是,本申请实施例中提供的文本数据的判别方法,获取待判别的目标文本数据,先使用文本分类模型对目标文本数据进行分类预测,得到表征目标文本数据是否属于目标业务域的第一分类结果,通过文本分类模型对目标文本数据进行初步的筛选,检测出属于目标业务域的目标文本数据;然后,通过实体关系抽取模型对目标文本数据进行实体识别和关系抽取,确定其中包含的目标实体以及目标实体之间的目标关系,根据目标实体是否属于目标业务域,以及目标关系是否符合预设的关系类型,对目标文本数据进行细致的再次筛选,从而确定出实际符合业务需求的目标文本数据为有效数据。本申请中的技术方案,结合文本分类模型和实体关系抽取模型对目标文本数据的有效性进行判别,能够有效文本数据的判别准确度,方便高效地收集目标业务域内的信息,有利于降低信息的处理成本。
具体地,在一种可能的实现方式中,获取待判别的目标文本数据的步骤之后,方法还包括:
对目标文本数据进行去重处理;
或者,检测目标文本数据中是否包含预设的关键词,若目标文本数据不包括关键词,确定目标文本数据为无效数据。
本申请实施例中,在获取得到目标文本数据后,可以对目标文本数据进行一定的预处理操作。具体地,预处理操作可以包括但不限于去重处理和初筛处理。其中,去重处理是检测有没有处理过和目标文本数据相近的文本数据的判别任务,可以理解的是,在收集获取目标文本数据时,可能获取的目标文本数据是大量的,需要对每个目标文本数据进行有效性的判别。而不同渠道获取的文本数据,可能存在有相同或者基本一致的情况,即存在有数据冗余重复的问题,如果不经过去重处理即开始对目标文本数据进行有效性的判别,将会重复处理到大量的冗余文本数据,提高了文本数据的判别成本。
本申请实施例中,在对目标文本数据进行判别处理前,可以对它进行去重处理。具体地,在一些实施例中,可以采用相似度匹配(similarity matching)技术,相似度匹配是一种用于检索匹配某个给定项的技术,其目的是在数据集中找到与给定项相似的项。对于本申请实施例中的应用,即检测目标文本数据和参考文本数据之间的相似度,参考文本数据为当前进行去重处理的目标文本数据以外的其他文本数据。检测得到的相似度用于表征目标文本数据和参考文本数据之间的相似程度,相似度的数值越高,说明目标文本数据和参考文本数据之间越相似。因此,可以对应设置一个相似度的阈值,记为相似度阈值。将计算得到的相似度和相似度阈值进行比较,如果目标文本数据和参考文本数据之间的相似度大于或者等于相似度阈值,可以认为该参考文本数据和目标文本数据基本一致,目标文本数据存在重复的问题。此时,可以接着检测参考文本数据是否是已经判别过的文本数据,如果是已经判别过的文本数据,则说明之前已经判别过当前的目标文本数据,可以删除当前的目标文本数据,重新获取新的待判别的目标文本数据。如果参考文本数据为未判别过的文本数据,则可以正常对当前的目标文本数据进行判别处理,并且删除和当前的目标文本数据相近的参考文本数据。如果目标文本数据和各个参考文本数据之间的相似度均小于相似度阈值,则说明对于当前的目标文本数据,不存在与之相近的参考文本数据,可以正常对其进行判别处理。
此处,需要说明的是,本申请实施例中,对于相似度的数值表示方式不作限制。例如,在一些实施例中,可以采用百分数来表征相似度的大小,100%可以设定为相似度的最大值,当目标文本数据和参考文本数据之间的相似度达到100%,说明两者完全一致,预设的相似度阈值可以设定为90%,当目标文本数据和参考文本数据之间的相似度大于或者90%,可以认定两者匹配,内容基本一致。当然,对于相似度阈值的大小,本申请实施例同样不作限制,其可以根据实际的需求灵活设定。
一般来说,常用的相似度算法包括有余弦相似度算法、杰卡德相似度算法、汉明距离算法等,本申请实施例中,对具体采用的相似度算法类型不作限制。
本申请实施例中,除了对目标文本数据进行去重处理外,还可以对其进行初筛处理。具体地,比如说可以检测目标文本数据中是否包含预设的关键词,这里的关键词可以根据前面设定的目标业务域来确定,即事先选取处于目标业务域的词语作为关键词,构成一个关键词集合。然后,可以检测目标文本数据中是否含有这些关键词,如果不包含这些关键词中的任一者,则说明目标文本数据很可能和目标业务域无关,可以将其确定为无效数据。可以理解的是,本申请实施例中,通过关键词对目标文本数据进行初步的筛选,能够提前筛除掉大量的无关文本数据,有利于提高目标文本数据有效性识别的效率,降低计算资源的消耗和硬件成本。
具体地,在一种可能的实现方式中,文本分类模型包括第一文本分类模型和第二文本分类模型;通过文本分类模型对目标文本数据进行分类预测,得到第一分类结果,包括:
将目标文本数据输入到第一文本分类模型和第二文本分类模型中;
通过第一文本分类模型对目标文本数据进行分类预测,得到第二分类结果;第二分类结果用于表征第一文本分类模型对目标文本数据属于目标业务域或者目标文本数据不属于目标业务域的预测结果;
通过第二文本分类模型对目标文本数据进行分类预测,得到第三分类结果;第三分类结果用于表征第二文本分类模型对目标文本数据属于目标业务域或者目标文本数据不属于目标业务域的预测结果;
若第二分类结果表征目标文本数据属于目标业务域且第三分类结果表征目标文本数据属于目标业务域,将第一分类结果确定为表征目标文本数据属于目标业务域的预测结果;或者若第二分类结果表征目标文本数据不属于目标业务域,或者第三分类结果表征目标文本数据不属于目标业务域,将第一分类结果确定为表征目标文本数据不属于目标业务域的预测结果。
参照图3,本申请实施例中,可以采用多个文本分类模型对目标文本数据进行分类预测,从而得到最终的第一分类结果。具体地,本申请实施例中,可以采用两个或者两个以上的文本分类模型进行处理,对其具体的数量不作限制,可以理解的是,当采用多个文本分类模型进行分类预测时,可以综合各个文本分类模型得到的预测结果,能够提高第一分类结果的准确度,进而提高文本数据判别的准确度。
具体地,本申请实施例中,以采用两个文本分类模型的进行分类预测的技术方案进行介绍和说明。将两个文本分类模型记为第一文本分类模型和第二文本分类模型,在使用第一文本分类模型和第二文本分类模型对目标文本数据进行分类预测时,首先,可以将目标文本数据输入到这两个模型中,通过第一文本分类模型进行分类预测,得到一个预测结果,记为第二分类结果;以及通过第二文本分类模型进行分类预测,得到另一个预测结果,记为第三分类结果。此处,第二分类结果、第三分类结果的含义以及具体的数据形式和第一分类结果类似,在此不作赘述。然后,可以综合第二分类结果和第三分类结果来确定出第一分类结果。比如说,可以设定如果第二分类结果和第三分类结果都表征目标文本数据属于目标业务域,则确定第一分类结果为表征目标文本数据属于目标业务域的预测结果。相对地,如果第二分类结果和第三分类结果有任意一个表征目标文本数据不属于目标业务域,则确定第一分类结果为表征目标文本数据不属于目标业务域的预测结果。
当然,需要指出的是,本领域技术人员可以根据实际需求,在采用两个文本分类模型的进行分类预测的技术方案上,进一步扩充使用的文本分类模型的个数。当采用两个以上的文本分类模型对目标文本数据进行分类预测时,最终得到的第一分类结果可以按照多数文本分类模型给出的预测结果来确定;也可以在所有的文本分类模型均给出表征目标文本数据属于目标业务域的预测结果时,确定第一分类结果为表征目标文本数据属于目标业务域的预测结果,在存在任意一个文本分类模型给出表征目标文本数据不属于目标业务域的预测结果时,确定第一分类结果为表征目标文本数据不属于目标业务域的预测结果,本申请对此不作限制。
需要补充说明的是,本申请实施例中,采用的多个文本分类模型,可以基于不同的分类算法搭建得到,对于具体的分类算法类型,本申请不作限制。
具体地,在一种可能的实现方式中,参照图4,将目标文本数据输入到第一文本分类模型和第二文本分类模型中,包括:
步骤410、从目标文本数据的起始位置开始截取第一长度的数据内容,得到第一文本数据;
步骤420、从目标文本数据的起始位置开始截取第二长度的数据内容,得到第二文本数据;
步骤430、将第一文本数据输入到第一文本分类模型中,以及将第二文本数据输入到第二文本分类模型中;
其中,第一长度小于第三长度,第二长度大于第三长度;第三长度为目标文本数据的总长度的一半。
本申请实施例中,在使用第一文本分类模型和第二文本分类模型对目标文本数据进行分类预测时,为了尽可能使两个文本分类模型捕捉目标文本数据中更为丰富的信息,可以约束输入两个文本分类模型的目标文本数据的内容存在一定差异。具体地,可以令输入第一文本分类模型的数据相对较少,输入第二文本分类模型的数据相对较多。常规来说,对于文本数据,其重要信息往往从起始位置开始表述,因此,本申请实施例中,可以从目标文本数据的起始位置开始,截取第一长度的数据内容,将这部分内容记为第一文本数据;并且,从目标文本数据的起始位置开始,截取第二长度的数据内容,将这部分内容记为第二文本数据。其中,第一长度可以约束在目标文本数据前半部分的数据长度内,将目标文本数据的总长度的一半记为第三长度,设定第一长度小于第三长度。这样,可以将目标文本数据前半部分以内的数据输入到第一文本分类模型。
本申请实施例中,还设定第二长度大于第三长度,这样,截取的第二文本数据中将包括目标文本数据中靠后的数据内容,使用第一文本分类模型基于第一文本数据进行分类预测,同时使用第二文本分类模型基于第二文本数据行分类预测,可以兼顾到目标文本数据靠前以及靠后的重要信息,有利于提高得到的第一分类结果的准确度。
具体地,在一种可能的实现方式中,通过第一文本分类模型对目标文本数据进行分类预测,得到第二分类结果,包括:
对目标文本数据进行分词处理,得到目标文本数据对应的第一词组,并确定第一词组中各个词对应的第一词特征数据;
根据第一词组中各个词对应的第一词特征数据,通过第一文本分类模型进行分类预测,得到第二分类结果。
本申请实施例中,在使用第一文本分类模型对目标文本数据进行分类预测,得到第二分类结果时。在一些实施例中,可以先对目标文本数据进行分词处理,得到目标文本数据对应的第一词组,该第一词组中包括有若干的词。此处,可以采用的分词算法有多种,例如,在一些实施例中,可以采用基于词典的分词算法,先把目标文本数据按照词典切分成词,再寻找词的最佳组合方式;在一些实施例中,也可以采用基于字的分词算法,先把目标文本数据分成一个个字,再将字组合成词,寻找最优的组合方式,得到一个个词。
对于得到的第一词组,本申请实施例中,可以确定第一词组中各个词对应特征数据,将该特征数据记为第一词特征数据。具体地,在一些实施例中,这些词对应的第一词特征数据,可以通过将词映射到一个具有统一的较低维度的向量空间中得到,生成这种映射的策略包括神经网络、单词共生矩阵的降维、概率模型以及可解释的知识库方法等。在一些实施例中,也可以使用预训练的语言模型,如word2vector等来生成各个词的第一词特征数据,本申请对此不作限制。对于得到的第一词特征数据的数据形式,其可以包括数字、向量、矩阵或者张量中的至少一种。
本申请实施例中,根据第一词组中各个词的第一词特征数据,可以使用第一文本分类模型进行分类预测,得到第二分类结果。具体地,在一些实施例中,在根据第一词特征数据预测第二分类结果时,可以先对各个第一词特征数据进行融合处理,比如说可以采用的特征融合处理方式包括但不限于加权处理、拼接处理等,本申请对此不作具体限制。融合处理后的特征数据可以记为文本特征数据,第一文本分类模型可以使用文本特征数据,通过模型内部各个层的处理,输出得到第二分类结果。
具体地,在一种可能的实现方式中,通过第一文本分类模型进行分类预测,得到第二分类结果,包括:
通过第一文本分类模型进行分类预测,得到第一文本分类模型输出的概率值;概率值用于表征第一文本分类模型预测目标文本数据属于目标业务域的概率;
若概率值大于或者等于预设的概率阈值,将第二分类结果确定为表征目标文本数据属于目标业务域的预测结果;或者,若概率值小于概率阈值,将第二分类结果确定为表征目标文本数据不属于目标业务域的预测结果。
本申请实施例中,如前面所描述的,分类结果可以是根据文本分类模型的输出进一步处理得到的结果。示例性地,比如说,对于第一文本分类模型来说,它输出的结果可以是概率值,该概率值可以表征第一文本分类模型预测目标文本数据属于目标业务域的概率。本申请实施例中,可以根据该概率值得到对应的第二分类结果。具体地,可以事先设定一个概率阈值,如果第一文本分类模型输出的概率值大于或者等于预设的概率阈值,则将第二分类结果确定为表征目标文本数据属于目标业务域的预测结果;反之,如果第一文本分类模型输出的概率值小于预设的概率阈值,则将第二分类结果确定为表征目标文本数据不属于目标业务域的预测结果。对于概率阈值的具体大小,本申请不作限制,例如,其可以设置为60%。
具体地,在一种可能的实现方式中,通过实体关系抽取模型对目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对目标文本数据进行关系抽取,得到目标实体之间的目标关系,包括:
对目标文本数据进行语句分割处理,得到多个目标语句;
对各个目标语句进行分词处理,得到目标语句对应的第二词组,并确定第二词组中各个词对应的第二词特征数据;
根据第二词组中各个词对应的第二词特征数据,通过实体关系抽取模型对目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对目标文本数据进行关系抽取,得到目标实体之间的目标关系。
本申请实施例中,在使用实体关系抽取模型对目标文本数据进行处理时,可以先对目标文本数据进行语句分割处理,例如可以按照标点等对其进行分割,得到多个语句,记为目标语句。然后,对于每个目标语句,可以进行分词处理,得到目标语句对应的第二词组,分词的具体实现方式在前述实施例中已有介绍,在此不作赘述。接着,可以确定出各个第二词组的词特征数据,记为第二词特征数据。基于第二词特征数据,可以通过实体关系抽取模型对目标文本数据进行实体识别和关系抽取,得到目标实体,以及目标实体之间的目标关系。具体地,这里既可以是统一得到目标文本数据对应的多个目标实体和目标关系,也可以是得到每个目标语句中包含的目标实体和目标关系,本申请对此不作限制。
具体地,在一种可能的实现方式中,参照图5,本申请实施例中,文本分类模型可以通过以下步骤训练得到:
步骤510、获取训练数据集;训练数据集中包括批量的样本文本数据和各个样本文本数据对应的标签信息;其中,标签信息用于表征样本文本数据属于第一业务域或者样本文本数据不属于第一业务域的真实结果;
步骤520、将样本文本数据输入到待训练的文本分类模型中,通过待训练的文本分类模型对样本文本数据进行分类预测,得到第四分类结果;其中,第四分类结果用于表征文本分类模型对样本文本数据属于第一业务域或者样本文本数据不属于第一业务域的预测结果;
步骤530、根据标签信息和第四分类结果,确定预测的第一损失值;
步骤540、根据第一损失值,对待训练的文本分类模型进行参数更新,得到训练好的文本分类模型。
本申请实施例中,文本分类模型在投入使用前,需要经过训练来调整其内部的参数,以改善其预测的精度。具体地,文本分类模型可以在多个样本文本数据上训练得到,在训练文本分类模型时,可以获取一个训练数据集,在训练数据集中,包括有批量的样本文本数据和这些样本文本数据对应的标签信息,标签信息可以用于表征样本文本数据属于第一业务域或者样本文本数据不属于第一业务域的真实结果,其具体的数据结构可以包括数字、向量、矩阵或者张量中的至少一种,本申请对此不作限制。此处,第一业务域既可以和目标业务域相同,也可以和目标业务域不同。当第一业务域和目标业务域不同时,文本分类模型的输出可以是样本文本数据属于各个业务域的概率值。
本申请实施例中,可以将样本文本数据输入到待训练的文本分类模型中,通过文本分类模型来预测样本文本数据对应的类别,得到一个预测结果,记为第四分类结果。文本分类模型的处理过程已在前述的步骤介绍,此处得到的第四分类结果的数据格式可以参照第一分类结果来实现,本申请在此不作赘述。接着,可以基于第四分类结果和标签信息,确定文本分类模型分类预测的准确度。具体地,可以确定第四分类结果和标签信息之间的偏差,得到文本分类模型分类预测的损失值,记为第一损失值。得到第一损失值后,可以根据第一损失值的大小评估文本分类模型的预测准确度,以对文本分类模型进行反向传播训练,更新其内部的相关参数。
具体地,对于机器学习模型来说,它预测的准确度可以通过损失函数(LossFunction)来衡量,损失函数是定义在单个训练数据上的,用于衡量一个训练数据的预测误差,具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时,一个训练数据集有很多训练数据,因此一般采用代价函数(CostFunction)来衡量训练数据集的整体误差,代价函数是定义在整个训练数据集上的,用于计算所有训练数据的预测误差的平均值,能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说,基于前述的代价函数,再加上衡量模型复杂度的正则项即可作为训练的目标函数,基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多,例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数,在此不再一一阐述。本申请实施例中,可以任选一种损失函数来确定第一损失值,对待优化的文本分类模型进行参数更新,当第一损失值小于设定的指标值,或者达到更新迭代次数时,可以认为训练完成,得到训练好的文本分类模型。
示例性地,本申请实施例中,可以使用交叉熵损失函数,其对应的公式如下:
式中,L表示第一损失值,N表示样本个数,i表示样本编号,/>表示第i个样本对应的加权权重,/>表示文本分类模型预测第i个样本属于第一业务域的概率值,/>表示文本分类模型预测第i个样本不属于第一业务域的概率值。
具体地,在一种可能的实现方式中,获取训练数据集的步骤之后,方法还包括:
从样本文本数据确定若干第三文本数据;第三文本数据对应的标签信息表征第三文本数据属于第一业务域;
对第三文本数据进行扩充处理,扩充处理至少包括以下一种步骤:
对第三文本数据中的至少一个词语进行同义词替换处理;
或者,复制第三文本数据中的至少一个词语,并将复制的词语插入到第三文本数据中;
或者,交换第三文本数据中至少两个词语之间的位置;
或者,删除第三文本数据除预设的关键词以外的至少一个词语。
本申请实施例中,在对文本分类模型进行训练时,获取得到的训练数据集中,可能存在有正样本较少、负样本较多的情况,为了提高模型训练的效率和训练得到的文本分类模型的性能,可以对正样本进行扩充处理。具体地,本申请实施例中,可以从样本文本数据确定若干对应的标签信息表征属于第一业务域的文本数据,记为第三文本数据。然后,可以对第三文本数据进行适当的变换,得到新的文本数据作为样本文本数据。比如说,在一些实施例中,可以对第三文本数据中的至少一个词语进行同义词替换处理;在一些实施例中,可以复制第三文本数据中的至少一个词语,并将复制的词语插入到第三文本数据中,对于具体的插入位置,本申请不作限制;在一些实施例中,可以交换第三文本数据中至少两个词语之间的位置;在一些实施例中,还可以删除第三文本数据除预设的关键词以外的至少一个词语。
可以理解的是,本申请实施例中,对第三文本数据进行变换得到的新的文本数据对应的标签信息,也表征该文本数据属于第一业务域,也即得到的新的文本数据也属于正样本。通过以上的扩充处理方式,可以得到更多的正样本,方便实现对文本分类模型的训练。
类似地,本申请实施例中,在训练实体关系抽取模型时,可以使用标注有实体以及实体关系的训练数据集对其进行训练。并且,也可以对其正样本进行扩充处理,比如说可以从训练的文本数据或者语句中,选择部分正样本,替换其中的一些实体,并更新实体对应的索引信息;或者随机删除一些词语,本申请对此不作限制。对于实体关系抽取模型的训练,可以使用最小化实体预测的损失和关系预测的损失的加权和作为目标函数,对其具体的训练过程,本申请在此不作赘述。
下面,结合具体的应用实施流程,对本申请中提供的文本数据的判别方法进行详细介绍和说明。
示例性地,本申请实施例中提供的文本数据的判别方法,可以应用于地图导航应用中。在地图导航应用中,经常需要从互联网各个渠道获取关于道路的状态信息,比如说道路是否处于开通或者封闭的状态。本申请实施例中,以收集涉及道路开通或者封闭相关的信息为例,对文本数据的判别方法的具体实现流程进行介绍。
参照图6,图6示出了本申请实施例中提供的文本数据的判别方法的具体流程示意图。本申请实施例中,在采集信息时,可以从互联网获取各类信息作为目标文本数据。为了确定这些目标文本数据是否涉及道路开通或者封闭相关的信息,可以综合使用文本分类模型和实体关系抽取模型来进行判别,从而确定目标数据的有效性。
具体地,参照图6,本申请实施例中,对于获取的互联网文本情报(即目标文本数据),可以提取它前面的500个字作为第一文本数据,前面的2000个字作为第二文本数据,当然,这里具体提取的字数多少可以根据目标文本数据的总字数来灵活确定。在得到两组文本数据后,可以将第一文本数据输入到一个开封分类模型A(即第一文本分类模型)中,通过开封分类模型A预测第一文本数据是否是涉及道路开通或者封闭相关的信息,得到一个预测结果(即第二分类结果),类似地,将第二文本数据输入到另一个开封分类模型B(即第二文本分类模型)中,通过开封分类模型B预测第二文本数据是否是涉及道路开通或者封闭相关的信息,得到另一个预测结果(即第三分类结果)。如果开封分类模型A和开封分类模型B的预测结果均表明获取的互联网文本情报属于道路开通或者封闭相关的情报,说明该信息属于目标业务域,可以进行下一步的判别;如果开封分类模型A和开封分类模型B中任意一个预测的预测结果表明获取的互联网文本情报不属于道路开通或者封闭相关的情报,那么可以将该互联网文本情报确定为无效数据。
在进行进一步的判别时,可以将互联网文本情报通过语句分割处理得到多个短句(即目标语句),记为短句1、短句2...短句n(n为正整数),然后,对于每个短句,通过实体关系抽取模型进行抽取,得到其中涉及的实体和实体关系,如果发现其中的实体和道路相关,说明该实体属于目标业务域,接着继续判断其对应的实体关系,如果它对应的实体关系为开通或者封闭等事件,则说明该互联网文本情报中包含了道路开通或者封闭的事件,可以将其判别为有效数据,送入到地图导航应用中,方便实时更新当前的道路状态,为出行人员提供道路规划指引。如果发现提取出的实体没有和道路相关的,或者和道路相关的实体对应的实体关系没有涉及开通或者封闭等事件,则说明该互联网文本情报不包含道路开通或者封闭的事件,可以将其确定为无效数据。
具体地,参照图7,图7示出了本申请实施例中提供的一种文本分类模型的示意图。图7中的文本分类模型基于BERT模型搭建,其可以单独使用,也可以结合其他的文本分类模型一起使用,比如说可以作为前面的开封分类模型A。在使用图7所示的模型进行分类预测时,在输入的文本数据的起始位置增加[CLS]标识,可以设定最长的输入长度为500字,不足500字的情况用[PAD]补充,可以利用预训练的BERT中文分词器,将文本数据中的每个字及标点转换成向量表示{x0,x1…xN}(N为正整数)。然后,将预处理后的向量输入到BERT模型中,将BERT模型的第一个位置的输出CLS作为全链接层的输入(维度为768维),经过线性分类器(Dropout层、全链接层及softmax激活函数)得到文本数据的分类的概率值,概率值的大小表征该文本数据是否属于目标业务域(即是否属于道路开通或者关闭的信息)。这里可以预先设置概率阈值为0.6,分类的概率值超过概率阈值则输出结果为1(属于道路开通或者关闭的信息),否则为0(不属于道路开通或者关闭的信息)。
类似地,参照图8,图8示出了本申请实施例中提供的另一种文本分类模型的示意图。图8中的文本分类模型基于DPCNN(Deep Pyramid Convolutional Neural Network,深度卷积神经网络模型)搭建,其可以单独使用,也可以结合其他的文本分类模型一起使用,比如说可以作为前面的开封分类模型B。在使用图8所示的模型进行分类预测时,首先对文本数据进行预处理,设定输入最长的文本数据长度为2000,即max_len = 2000,不足2000长度用[PAD]表示补充。同时利用word2vector预训练模型对文本数据中的每个字及标点转换成向量表示{x1,x2…xN},N为正整数,可以取300,即每一个特征向量的维度为300,将m个特征向量组成m*300的特征图(即文本特征数据),其中m=2000。将经过预处理后的特征图输入到DPCNN模型中,经过卷积层、池化层处理,最后经过线性分类器(Dropout层、全链接层及softmax激活函数)得到文本数据的分类的概率值。这里的概率值的大小也表征该文本数据是否属于目标业务域(即是否属于道路开通或者关闭的信息),其输出结果的设置可以和前面实施例的描述一致,本申请在此不作赘述。
参照图9,图9示出了本申请实施例中提供的一种实体关系抽取模型的示意图。本申请实施例中,可以将文本数据分割成多个目标语句,然后通过实体关系抽取模型抽取每个目标语句中的实体和关系,从而判别文本数据的有效性。具体地,图9中示出的实体关系抽取模型基于BERT搭建,其实现实体识别和关系抽取的过程为:将输入的文本数据按照标点,切分成多个语句,对于每个语句,在初始位置加上[CLS]标识,设定最长的输入语句的字数为100,即max_len = 100,不足100长度的用[PAD]表示补充,超过100长度的则进行截取100。同时,利用预训练的BERT分词器对语句中每个字及标点转换成向量表示{x1,x2…xN}。然后,可以将经过预处理后的语句输入到BERT模型,将BERT模型的第一个位置的输出CLS作为实体关系抽取模型中实体关系抽取层的输入(维度为768维),通过实体关系抽取模型预测语句中包含的实体类别以及实体之间的关系类别,根据实体类别输出概率得到语句中包含的实体(即目标实体),根据关系类别输出概率得到实体间的关系(即目标关系),即可完成提取过程。之后,通过比较目标实体、目标关系是否属于道路开通或者关闭的信息,即可确定文本数据的有效性。需要说明的是,本申请实施例中,实体关系抽取模型的结构并不局限于上述的实施方式,在一些实施例中,也可以利用word2vec模型将词转成向量表示,然后结合LSTM(长短记忆网络)来代替BERT完成语句的特征数据的抽取工作,本申请对此不作限制。
可以理解的是,本申请实施例中,提供一种道路状态信息的采集方法,可以通过文本数据的判别方法判别采集到的文本数据是否属于道路开通或者关闭的信息,方便收集到用于更新地图中道路状态的有效信息,可以提高地图应用程序出行指引功能的可靠性和高效性。
参照图10,本申请实施例还提供了一种文本数据的判别装置,装置包括:
获取单元1010,用于获取待判别的目标文本数据;
分类单元1020,用于通过文本分类模型对目标文本数据进行分类预测,得到第一分类结果;其中,第一分类结果用于表征文本分类模型对目标文本数据属于目标业务域或者目标文本数据不属于目标业务域的预测结果;
识别单元1030,用于若第一分类结果表征目标文本数据属于目标业务域,通过实体关系抽取模型对目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对目标文本数据进行关系抽取,得到目标实体之间的目标关系;
处理单元1040,用于若目标实体属于目标业务域,且目标关系符合预设的关系类型,确定目标文本数据为有效数据。
可选地,装置还包括预处理单元,预处理单元具体用于:
对目标文本数据进行去重处理;
或者,检测目标文本数据中是否包含预设的关键词,若目标文本数据不包括关键词,确定目标文本数据为无效数据。
可选地,预处理单元具体用于:
检测参考文本数据和目标文本数据之间的相似度;其中,参考文本数据为除目标文本数据以外的其他文本数据;
若参考文本数据和目标文本数据之间的相似度大于或者等于预设的相似度阈值,检测参考文本数据是否为已判别过的文本数据;
若参考文本数据为已判别过的文本数据,重新获取新的待判别的目标文本数据;或者,若参考文本数据为未判别过的文本数据,删除参考文本数据。
可选地,文本分类模型包括第一文本分类模型和第二文本分类模型;分类单元具体用于:
将目标文本数据输入到第一文本分类模型和第二文本分类模型中;
通过第一文本分类模型对目标文本数据进行分类预测,得到第二分类结果;第二分类结果用于表征第一文本分类模型对目标文本数据属于目标业务域或者目标文本数据不属于目标业务域的预测结果;
通过第二文本分类模型对目标文本数据进行分类预测,得到第三分类结果;第三分类结果用于表征第二文本分类模型对目标文本数据属于目标业务域或者目标文本数据不属于目标业务域的预测结果;
若第二分类结果表征目标文本数据属于目标业务域且第三分类结果表征目标文本数据属于目标业务域,将第一分类结果确定为表征目标文本数据属于目标业务域的预测结果;或者若第二分类结果表征目标文本数据不属于目标业务域,或者第三分类结果表征目标文本数据不属于目标业务域,将第一分类结果确定为表征目标文本数据不属于目标业务域的预测结果。
可选地,分类单元具体用于:
从目标文本数据的起始位置开始截取第一长度的数据内容,得到第一文本数据;
从目标文本数据的起始位置开始截取第二长度的数据内容,得到第二文本数据;
将第一文本数据输入到第一文本分类模型中,以及将第二文本数据输入到第二文本分类模型中;
其中,第一长度小于第三长度,第二长度大于第三长度;第三长度为目标文本数据的总长度的一半。
可选地,分类单元具体用于:
对目标文本数据进行分词处理,得到目标文本数据对应的第一词组,并确定第一词组中各个词对应的第一词特征数据;
根据第一词组中各个词对应的第一词特征数据,通过第一文本分类模型进行分类预测,得到第二分类结果。
可选地,分类单元具体用于:
根据第一词组中各个词对应的第一词特征数据,确定目标文本数据对应的文本特征数据;
根据文本特征数据,通过第一文本分类模型进行分类预测,得到第二分类结果。
可选地,分类单元具体用于:
通过第一文本分类模型进行分类预测,得到第一文本分类模型输出的概率值;概率值用于表征第一文本分类模型预测目标文本数据属于目标业务域的概率;
若概率值大于或者等于预设的概率阈值,将第二分类结果确定为表征目标文本数据属于目标业务域的预测结果;或者,若概率值小于概率阈值,将第二分类结果确定为表征目标文本数据不属于目标业务域的预测结果。
可选地,识别单元具体用于:
对目标文本数据进行语句分割处理,得到多个目标语句;
对各个目标语句进行分词处理,得到目标语句对应的第二词组,并确定第二词组中各个词对应的第二词特征数据;
根据第二词组中各个词对应的第二词特征数据,通过实体关系抽取模型对目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对目标文本数据进行关系抽取,得到目标实体之间的目标关系。
可选地,装置还包括训练单元,训练单元具体用于:
获取训练数据集;训练数据集中包括批量的样本文本数据和各个样本文本数据对应的标签信息;其中,标签信息用于表征样本文本数据属于第一业务域或者样本文本数据不属于第一业务域的真实结果;
将样本文本数据输入到待训练的文本分类模型中,通过待训练的文本分类模型对样本文本数据进行分类预测,得到第四分类结果;其中,第四分类结果用于表征文本分类模型对样本文本数据属于第一业务域或者样本文本数据不属于第一业务域的预测结果;
根据标签信息和第四分类结果,确定预测的第一损失值;
根据第一损失值,对待训练的文本分类模型进行参数更新,得到训练好的文本分类模型。
可选地,训练单元还用于:
从样本文本数据确定若干第三文本数据;第三文本数据对应的标签信息表征第三文本数据属于第一业务域;
对第三文本数据进行扩充处理,扩充处理至少包括以下一种步骤:
对第三文本数据中的至少一个词语进行同义词替换处理;
或者,复制第三文本数据中的至少一个词语,并将复制的词语插入到第三文本数据中;
或者,交换第三文本数据中至少两个词语之间的位置;
或者,删除第三文本数据除预设的关键词以外的至少一个词语。
可以理解的是,如图2所示的文本数据的判别方法实施例中的内容均适用于本文本数据的判别装置实施例中,本文本数据的判别装置实施例所具体实现的功能与如图2所示的文本数据的判别方法实施例相同,并且达到的有益效果与如图2所示的文本数据的判别方法实施例所达到的有益效果也相同。
本申请实施例还公开了一种电子设备,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个程序被至少一个处理器执行,使得至少一个处理器实现如图2所示的文本数据的判别方法实施例。
可以理解的是,如图2所示的文本数据的判别方法实施例中的内容均适用于本电子设备实施例中,本电子设备实施例所具体实现的功能与如图2所示的文本数据的判别方法实施例相同,并且达到的有益效果与如图2所示的文本数据的判别方法实施例所达到的有益效果也相同。
本申请实施例的电子设备,可以是终端设备、计算机设备或者服务器设备。
示例性地,参照图11,图11为本申请实施例中提供的一种电子设备的结构示意图。以电子设备是终端设备为例,图11中,终端设备1100可以包括RF(Radio Frequency,射频)电路1110、包括有一个或一个以上计算机可读存储介质的存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、短距离无线传输模块1170、包括有一个或者一个以上处理核心的处理器1180、以及电源1190等部件。本领域技术人员可以理解,图11中示出的设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
RF电路1110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器1180处理;另外,将涉及上行的数据发送给基站。通常,RF电路1110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、对象身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路1110还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。
存储器1120可用于存储软件程序以及模块(或者单元)。处理器1180通过运行存储在存储器1120的软件程序以及模块(或者单元),从而执行各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能)等;存储数据区可存储根据终端设备1100的使用所创建的数据(比如音频数据、电话本)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1120还可以包括存储器控制器,以提供处理器1180和输入单元1130对存储器1120的访问。虽然图11示出了RF电路1110,但是可以理解的是,其并不属于终端设备1100的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
输入单元1130可用于接收输入的数字或字符信息,以及产生与对象设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元1130可包括触敏表面1131以及其他输入设备1132。触敏表面1131,也称为触摸显示屏或者触控板,可收集对象在其上或附近的触摸操作(比如对象使用手指、触笔等任何适合的物体或附件在触敏表面1131上或在触敏表面1131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面1131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测对象的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的指令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1131。除了触敏表面1131,输入单元1130还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1140可用于显示由对象输入的信息或提供给对象的信息以及控制终端设备1100的各种图形对象接口,这些图形对象接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1140可包括显示面板1141,可选的,可以采用LCD(Liquid CrystalDisplay,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1141。进一步地,触敏表面1131可覆盖在显示面板1141之上,当触敏表面1131检测到在其上或附近的触摸操作后,传送给处理器1180以确定触摸事件的类型,随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图11中,触敏表面1131与显示面板1141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面1131与显示面板1141集成而实现输入和输出功能。
终端设备1100还可包括至少一种传感器1150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度,接近传感器可在终端设备1100移动到耳边时,关闭显示面板1141或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端设备1100还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1160、扬声器1161,传声器1162可提供对象与终端设备1100之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器1161,由扬声器1161转换为声音信号输出;另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160接收后转换为音频数据,再将音频数据输出处理器1180处理后,经RF电路1110以发送给另一电子设备,或者将音频数据输出至存储器1120以便进一步处理。音频电路1160还可能包括耳塞插孔,以提供外设耳机与终端设备1100的通信。
短距离无线传输模块1170可以是WIFI(wireless fidelity,无线保真)模块、蓝牙模块或红外线模块等。终端设备1100通过短距离无线传输模块1170可以与其他设备上设置的无线传输模块进行信息的传输。
处理器1180是终端设备1100的控制中心,利用各种接口和线路连接整个设备的各个部分,通过运行或执行存储在存储器1120内的软件程序或模块,以及调用存储在存储器1120内的数据,执行终端设备1100的各种功能和处理数据,从而对设备进行整体管控。可选地,处理器1180可包括一个或多个处理核心;可选地,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、对象界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
终端设备1100还包括给各个部件供电的电源1190(比如电池),可选地,电源1190可以通过电源管理系统与处理器1180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端设备1100还可以包括摄像头、蓝牙模块等,在此不再赘述。
本申请实施例还公开了一种计算机可读存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现如图2所示的文本数据的判别方法实施例。
可以理解的是,图2所示的文本数据的判别方法实施例中的内容均适用于本计算机可读存储介质实施例中,本计算机可读存储介质实施例所具体实现的功能与图2所示的文本数据的判别方法实施例相同,并且达到的有益效果与图2所示的文本数据的判别方法实施例所达到的有益效果也相同。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在上述的计算机可读存储介质中;图11所示的电子设备的处理器可以从上述的计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图2所示的文本数据的判别方法实施例。
可以理解的是,图2所示的文本数据的判别方法实施例中的内容均适用于本计算机程序产品或计算机程序实施例中,本计算机程序产品或计算机程序实施例所具体实现的功能与图2所示的文本数据的判别方法实施例相同,并且达到的有益效果与图2所示的文本数据的判别方法实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本申请的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本申请,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本申请的范围,本申请的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于实施例,熟悉本领域的技术人员在不违背本申请精神的前提下可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (14)
1.一种文本数据的判别方法,其特征在于,所述方法包括:
获取待判别的目标文本数据;
通过文本分类模型对所述目标文本数据进行分类预测,得到第一分类结果;其中,所述第一分类结果用于表征所述文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;
若所述第一分类结果表征所述目标文本数据属于所述目标业务域,通过实体关系抽取模型对所述目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对所述目标文本数据进行关系抽取,得到所述目标实体之间的目标关系;
若所述目标实体属于所述目标业务域,且所述目标关系符合预设的关系类型,确定所述目标文本数据为有效数据。
2.根据权利要求1所述的文本数据的判别方法,其特征在于,所述获取待判别的目标文本数据的步骤之后,所述方法还包括:
对所述目标文本数据进行去重处理;
或者,检测所述目标文本数据中是否包含预设的关键词,若所述目标文本数据不包括所述关键词,确定所述目标文本数据为无效数据。
3.根据权利要求2所述的文本数据的判别方法,其特征在于,所述对所述目标文本数据进行去重处理,包括:
检测参考文本数据和所述目标文本数据之间的相似度;其中,所述参考文本数据为除所述目标文本数据以外的其他文本数据;
若所述参考文本数据和所述目标文本数据之间的相似度大于或者等于预设的相似度阈值,检测所述参考文本数据是否为已判别过的文本数据;
若所述参考文本数据为已判别过的文本数据,重新获取新的待判别的目标文本数据;或者,若所述参考文本数据为未判别过的文本数据,删除所述参考文本数据。
4.根据权利要求1所述的文本数据的判别方法,其特征在于,所述文本分类模型包括第一文本分类模型和第二文本分类模型;所述通过文本分类模型对所述目标文本数据进行分类预测,得到第一分类结果,包括:
将所述目标文本数据输入到所述第一文本分类模型和所述第二文本分类模型中;
通过所述第一文本分类模型对所述目标文本数据进行分类预测,得到第二分类结果;所述第二分类结果用于表征所述第一文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;
通过所述第二文本分类模型对所述目标文本数据进行分类预测,得到第三分类结果;所述第三分类结果用于表征所述第二文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;
若所述第二分类结果表征所述目标文本数据属于目标业务域且所述第三分类结果表征所述目标文本数据属于目标业务域,将所述第一分类结果确定为表征所述目标文本数据属于目标业务域的预测结果;或者若所述第二分类结果表征所述目标文本数据不属于目标业务域,或者所述第三分类结果表征所述目标文本数据不属于目标业务域,将所述第一分类结果确定为表征所述目标文本数据不属于目标业务域的预测结果。
5.根据权利要求4所述的文本数据的判别方法,其特征在于,所述将所述目标文本数据输入到所述第一文本分类模型和所述第二文本分类模型中,包括:
从所述目标文本数据的起始位置开始截取第一长度的数据内容,得到第一文本数据;
从所述目标文本数据的起始位置开始截取第二长度的数据内容,得到第二文本数据;
将所述第一文本数据输入到所述第一文本分类模型中,以及将所述第二文本数据输入到所述第二文本分类模型中;
其中,所述第一长度小于第三长度,所述第二长度大于所述第三长度;所述第三长度为所述目标文本数据的总长度的一半。
6.根据权利要求4所述的文本数据的判别方法,其特征在于,所述通过所述第一文本分类模型对所述目标文本数据进行分类预测,得到第二分类结果,包括:
对所述目标文本数据进行分词处理,得到所述目标文本数据对应的第一词组,并确定所述第一词组中各个词对应的第一词特征数据;
根据所述第一词组中各个词对应的第一词特征数据,通过所述第一文本分类模型进行分类预测,得到所述第二分类结果。
7.根据权利要求6所述的文本数据的判别方法,其特征在于,所述根据所述第一词组中各个词对应的第一词特征数据,通过所述第一文本分类模型进行分类预测,得到第二分类结果,包括:
根据所述第一词组中各个词对应的第一词特征数据,确定所述目标文本数据对应的文本特征数据;
根据所述文本特征数据,通过所述第一文本分类模型进行分类预测,得到所述第二分类结果。
8.根据权利要求6或者7所述的文本数据的判别方法,其特征在于,所述通过所述第一文本分类模型进行分类预测,得到所述第二分类结果,包括:
通过所述第一文本分类模型进行分类预测,得到所述第一文本分类模型输出的概率值;所述概率值用于表征所述第一文本分类模型预测所述目标文本数据属于目标业务域的概率;
若所述概率值大于或者等于预设的概率阈值,将所述第二分类结果确定为表征所述目标文本数据属于目标业务域的预测结果;或者,若所述概率值小于所述概率阈值,将所述第二分类结果确定为表征所述目标文本数据不属于目标业务域的预测结果。
9.根据权利要求1所述的文本数据的判别方法,其特征在于,所述通过实体关系抽取模型对所述目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对所述目标文本数据进行关系抽取,得到所述目标实体之间的目标关系,包括:
对所述目标文本数据进行语句分割处理,得到多个目标语句;
对各个所述目标语句进行分词处理,得到所述目标语句对应的第二词组,并确定所述第二词组中各个词对应的第二词特征数据;
根据所述第二词组中各个词对应的第二词特征数据,通过所述实体关系抽取模型对所述目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对所述目标文本数据进行关系抽取,得到所述目标实体之间的目标关系。
10.根据权利要求1所述的文本数据的判别方法,其特征在于,所述文本分类模型通过以下步骤训练得到:
获取训练数据集;所述训练数据集中包括批量的样本文本数据和各个所述样本文本数据对应的标签信息;其中,所述标签信息用于表征所述样本文本数据属于第一业务域或者所述样本文本数据不属于第一业务域的真实结果;
将所述样本文本数据输入到待训练的文本分类模型中,通过所述待训练的文本分类模型对所述样本文本数据进行分类预测,得到第四分类结果;其中,所述第四分类结果用于表征所述文本分类模型对所述样本文本数据属于第一业务域或者所述样本文本数据不属于第一业务域的预测结果;
根据所述标签信息和所述第四分类结果,确定预测的第一损失值;
根据所述第一损失值,对所述待训练的文本分类模型进行参数更新,得到训练好的文本分类模型。
11.根据权利要求10所述的文本数据的判别方法,其特征在于,所述获取训练数据集的步骤之后,所述方法还包括:
从所述样本文本数据确定若干第三文本数据;所述第三文本数据对应的所述标签信息表征所述第三文本数据属于第一业务域;
对所述第三文本数据进行扩充处理,所述扩充处理至少包括以下一种步骤:
对所述第三文本数据中的至少一个词语进行同义词替换处理;
或者,复制所述第三文本数据中的至少一个词语,并将复制的词语插入到所述第三文本数据中;
或者,交换所述第三文本数据中至少两个词语之间的位置;
或者,删除所述第三文本数据除预设的关键词以外的至少一个词语。
12.一种文本数据的判别装置,其特征在于,所述装置包括:
获取单元,用于获取待判别的目标文本数据;
分类单元,用于通过文本分类模型对所述目标文本数据进行分类预测,得到第一分类结果;其中,所述第一分类结果用于表征所述文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;
识别单元,用于若所述第一分类结果表征所述目标文本数据属于所述目标业务域,通过实体关系抽取模型对所述目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对所述目标文本数据进行关系抽取,得到所述目标实体之间的目标关系;
处理单元,用于若所述目标实体属于所述目标业务域,且所述目标关系符合预设的关系类型,确定所述目标文本数据为有效数据。
13.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11任意一项所述的文本数据的判别方法。
14.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11任意一项所述的文本数据的判别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311227871.2A CN116975299A (zh) | 2023-09-22 | 2023-09-22 | 文本数据的判别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311227871.2A CN116975299A (zh) | 2023-09-22 | 2023-09-22 | 文本数据的判别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116975299A true CN116975299A (zh) | 2023-10-31 |
Family
ID=88475311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311227871.2A Pending CN116975299A (zh) | 2023-09-22 | 2023-09-22 | 文本数据的判别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975299A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494688A (zh) * | 2023-12-29 | 2024-02-02 | 深圳智能思创科技有限公司 | 表单信息抽取方法、装置、设备及存储介质 |
CN117540021A (zh) * | 2023-11-28 | 2024-02-09 | 中关村科学城城市大脑股份有限公司 | 大语言模型训练方法、装置、电子设备和计算机可读介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516654A (zh) * | 2019-09-03 | 2019-11-29 | 北京百度网讯科技有限公司 | 视频场景的实体识别方法、装置、电子设备和介质 |
CN110633366A (zh) * | 2019-07-31 | 2019-12-31 | 国家计算机网络与信息安全管理中心 | 一种短文本分类方法、装置和存储介质 |
CN111339774A (zh) * | 2020-02-07 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法和模型训练方法 |
CN111460148A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN112241458A (zh) * | 2020-10-13 | 2021-01-19 | 北京百分点信息科技有限公司 | 文本的知识结构化处理方法、装置、设备和可读存储介质 |
CN112307752A (zh) * | 2020-10-30 | 2021-02-02 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN112926332A (zh) * | 2021-03-30 | 2021-06-08 | 善诊(上海)信息技术有限公司 | 一种实体关系联合抽取方法及装置 |
CN113254615A (zh) * | 2021-05-31 | 2021-08-13 | 中国移动通信集团陕西有限公司 | 文本处理方法、装置、设备及介质 |
CN114706985A (zh) * | 2022-04-21 | 2022-07-05 | 平安科技(深圳)有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN115048505A (zh) * | 2022-06-17 | 2022-09-13 | 北京百度网讯科技有限公司 | 语料筛选方法和装置、电子设备、计算机可读介质 |
CN115688776A (zh) * | 2022-09-27 | 2023-02-03 | 北京邮电大学 | 面向中文金融文本的关系抽取方法 |
-
2023
- 2023-09-22 CN CN202311227871.2A patent/CN116975299A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633366A (zh) * | 2019-07-31 | 2019-12-31 | 国家计算机网络与信息安全管理中心 | 一种短文本分类方法、装置和存储介质 |
CN110516654A (zh) * | 2019-09-03 | 2019-11-29 | 北京百度网讯科技有限公司 | 视频场景的实体识别方法、装置、电子设备和介质 |
CN111339774A (zh) * | 2020-02-07 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法和模型训练方法 |
CN111460148A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN112241458A (zh) * | 2020-10-13 | 2021-01-19 | 北京百分点信息科技有限公司 | 文本的知识结构化处理方法、装置、设备和可读存储介质 |
CN112307752A (zh) * | 2020-10-30 | 2021-02-02 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN112926332A (zh) * | 2021-03-30 | 2021-06-08 | 善诊(上海)信息技术有限公司 | 一种实体关系联合抽取方法及装置 |
CN113254615A (zh) * | 2021-05-31 | 2021-08-13 | 中国移动通信集团陕西有限公司 | 文本处理方法、装置、设备及介质 |
CN114706985A (zh) * | 2022-04-21 | 2022-07-05 | 平安科技(深圳)有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN115048505A (zh) * | 2022-06-17 | 2022-09-13 | 北京百度网讯科技有限公司 | 语料筛选方法和装置、电子设备、计算机可读介质 |
CN115688776A (zh) * | 2022-09-27 | 2023-02-03 | 北京邮电大学 | 面向中文金融文本的关系抽取方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540021A (zh) * | 2023-11-28 | 2024-02-09 | 中关村科学城城市大脑股份有限公司 | 大语言模型训练方法、装置、电子设备和计算机可读介质 |
CN117494688A (zh) * | 2023-12-29 | 2024-02-02 | 深圳智能思创科技有限公司 | 表单信息抽取方法、装置、设备及存储介质 |
CN117494688B (zh) * | 2023-12-29 | 2024-03-29 | 深圳智能思创科技有限公司 | 表单信息抽取方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI790443B (zh) | 用於機器學習模型建立之技術 | |
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
US11481416B2 (en) | Question Answering using trained generative adversarial network based modeling of text | |
US10657259B2 (en) | Protecting cognitive systems from gradient based attacks through the use of deceiving gradients | |
US20200019863A1 (en) | Generative Adversarial Network Based Modeling of Text for Natural Language Processing | |
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
CN116975299A (zh) | 文本数据的判别方法、装置、设备及介质 | |
KR20170124581A (ko) | 특정 컨텍스트에 대한 사용자 요구의 예측 | |
CN112131401B (zh) | 一种概念知识图谱构建方法和装置 | |
Chen | Intelligent location-based mobile news service system with automatic news summarization | |
CN111881398B (zh) | 页面类型确定方法、装置和设备及计算机存储介质 | |
CN111651604B (zh) | 基于人工智能的情感分类方法和相关装置 | |
CN111985207B (zh) | 一种访问控制策略的获取方法、装置及电子设备 | |
CN109299469A (zh) | 一种在长文本中识别复杂住址的方法 | |
Yang et al. | Towards fairness-aware disaster informatics: an interdisciplinary perspective | |
US20230047800A1 (en) | Artificial intelligence-assisted non-pharmaceutical intervention data curation | |
CN117172978B (zh) | 学习路径信息生成方法、装置、电子设备和介质 | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
CN112052424A (zh) | 一种内容审核方法及装置 | |
CN117349437A (zh) | 基于智能ai的政府信息管理系统及其方法 | |
Jin et al. | Textual content prediction via fuzzy attention neural network model without predefined knowledge | |
CN116976321A (zh) | 文本处理方法、装置、计算机设备、存储介质和程序产品 | |
EP3924909A1 (en) | Feedback mining with domain-specific modeling | |
US20230316098A1 (en) | Machine learning techniques for extracting interpretability data and entity-value pairs | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |