CN116681082A - 离散文本语义分段方法、装置、设备及存储介质 - Google Patents
离散文本语义分段方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116681082A CN116681082A CN202310617721.6A CN202310617721A CN116681082A CN 116681082 A CN116681082 A CN 116681082A CN 202310617721 A CN202310617721 A CN 202310617721A CN 116681082 A CN116681082 A CN 116681082A
- Authority
- CN
- China
- Prior art keywords
- sentence
- text
- segmentation
- semantic
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 232
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 239000013598 vector Substances 0.000 claims description 243
- 230000015654 memory Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 239000004973 liquid crystal related substance Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000036541 health Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及人工智能技术,揭露了一种可用于金融类或医疗类离散文本语义分段方法,包括:确定待分段离散文本中的前句和后句,其中,所述前句和后句分别为所述待分段离散文本中相邻的两个分句或者确定为无需分段的分句集合;分别利用第一特征提取模型及第二特征提取模型计算所述前句及后句的第一语义相似度及第三语义相似度;利用第一特征提取模型计算待分段离散文本与后句的第二语义相似度;对第一语义相似度、第二语义相似度及第三语义相似度进行加权平均,得到目标相似度,根据目标相似度确定待分段离散文本的分段结果。本发明还提出一种离散文本语义分段装置、电子设备以及存储介质。本发明可以提高离散文本语义分段的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种离散文本语义分段方法、装置、电子设备及计算机可读存储介质。
背景技术
文本分段是文本处理时常见的处理方式,是自然语言处理领域一个重要分支,例如在进行各种金融交易系统的票据处理,在医疗问诊台中进行语义分析时均需要对离散文本进行分段处理。
当前主要采用词重叠统计方法及BERT模型分析语句相似度方法来对离散文本进行分段处理,词重叠统计方法,根据相邻两句话中重要词的重叠率来判断是否属于同一段落,但是经常会有不同的词表达同一种含义的情况,不能准确的判断语义段落;BERT模型分析语句相似度方法,根据相邻两句话的语义相似度判断是否同一段落,但是经常会出现间隔两句话语义相近的情况,例如有A,B,C三句话,A和B语义近似,B和C语义不近似,但A和C语义近似,会将AB划为一个段落,C为另一段落,导致分段不准确。
发明内容
本发明提供一种离散文本语义分段方法、装置及计算机可读存储介质,其主要目的在于解决进行离散文本语义分段不准确的问题。
为实现上述目的,本发明提供的一种离散文本语义分段方法,包括:
获取待分段离散文本,对所述待分段离散文本进行分句,得到文本分句序列,从所述文本分句序列中选取相邻两个句子作为相邻句,分别对所述文本分句序列、所述相邻句中的前句及后句进行分词,得到文本分词序列、前句分词序列及后句分词序列;
利用预设的第一特征提取模型提取所述前句分词序列的前句特征向量及提取所述后句分词序列的后句特征向量,计算所述后句特征向量与所述前句特征向量的第一语义相似度;
利用所述第一特征提取模型提取所述文本分词序列的文本特征向量,计算所述后句特征向量与所述文本特征向量的第二语义相似度;
利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,计算所述前句语义表示向量及所述后句语义表示向量的第三语义相似度;
对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均,得到所述前句与所述后句的目标相似度,并根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果。
可选地,所述计算所述后句特征向量与所述前句特征向量的第一语义相似度,包括:
分别对所述前句特征向量及所述后句特征向量进行均值池化,得到前句均值特征向量及后句均值特征向量;
利用预设多层感知器网络分类器拟合所述前句均值特征向量及所述后句均值特征向量的语义相似度,得到第一语义相似度。
可选地,所述计算所述后句特征向量与所述文本特征向量的第二语义相似度文本特征向量,包括:
拼接所述文本特征向量与所述后句特征向量,得到第一拼接特征向量;
根据预设词注意力机制,计算所述待分段离散文本的文本加权求和特征向量;
拼接所述第一拼接特征向量与所述文本加权求和特征向量,得到第二拼接向量;
基于所述第二拼接向量,利用预设多层感知器网络分类器计算所述文本特征向量与所述后句特征向量的相似度,得到第二语义相似度。
可选地,所述根据预设词注意力机制,计算所述待分段离散文本的文本加权求和特征向量文本加权求和特征向量,包括:
分别将所述后句特征向量中每个词向量与所述文本特征向量中每个词向量进行内积计算,得到内积值集;
对所述内积值集进行归一化,得到注意力权重集;
利用所述注意力权重集,对所述文本特征向量中每个词向量进行加权求和,得到文本加权求和特征向量。
可选地,所述利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,包括:
分别在所述前句分词序列及所述后句分词序列前插入CLS符号,得到目标前句分词序列及目标后句分词序列;
利用预设第二特征提取模型对所述目标前句分词序列及所述目标后句分词序列进行编码,得到所述目标前句分词序列及所述目标后句分词序列对应CLS符号对应的编码向量,将所述目标前句分词序列中CLS符号对应的编码向量作为前句语义表示向量,将所述目标后句分词序列中CLS符号对应的编码向量作为后句语义表示向量。
可选地,所述根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果,包括:
当所述前句与所述后句的目标相似度小于等于预设相似度阈值时,所述前句及后句的分段结果为所述前句及后句需要分段;
从所述文本分句序列中剔除起始分句,得到更新后的文本分句序列,从所述更新后的文本分句序列顺序选出下一相邻句,计算下一相邻句中前句及后句的目标相似度,直至所述文本分句序列中所有相邻句选择完毕,得到所有所述前句与所述后句的分段结果;
汇总所有所述前句及后句的分段结果,得到所述待分段离散文本的分段结果。
可选地,所述根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果,还包括:
当所述前句与所述后句的目标相似度小于等于预设相似度阈值时,所述前句及后句的分段结果为所述前句及后句不需要分段;
将所述前句及后句合并作为更新后相邻句的前句,并按照顺序从所述文本分句序列中选取一个未被选取过的分句作为更新后相邻句的后句;
计算所述更新后相邻句中前句及后句的目标相似度,直至所述文本分句序列中所有相邻句选择完毕,得到所有所述前句与所述后句的分段结果;
汇总所有所述前句及后句的分段结果,得到所述待分段离散文本的分段结果。
为了解决上述问题,本发明还提供一种离散文本语义分段装置,所述装置包括:
分词模块,用于获取待分段离散文本,对所述待分段离散文本进行分句,得到文本分句序列,从所述文本分句序列中选取相邻两个句子作为相邻句,分别对所述文本分句序列、所述相邻句中的前句及后句进行分词,得到文本分词序列、前句分词序列及后句分词序列;
第一相似度计算模块,用于利用预设的第一特征提取模型提取所述前句分词序列的前句特征向量及提取所述后句分词序列的后句特征向量,计算所述后句特征向量与所述前句特征向量的第一语义相似度;
第二相似度计算模块,用于利用所述第一特征提取模型提取所述文本分词序列的文本特征向量,计算所述后句特征向量与所述文本特征向量的第二语义相似度;
第三相似度计算模块,利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,计算所述前句语义表示向量及所述后句语义表示向量的第三语义相似度;
分段模块,对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均,得到所述前句与所述后句的目标相似度,并根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的离散文本语义分段方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的离散文本语义分段方法。
本发明实施例通过确定待分段离散文本中的前句和后句,其中,所述前句和后句分别为所述待分段离散文本中相邻的两个分句或者确定为无需分段的分句集合,利用预设的第一特征提取模型对所述前句分词序列及所述后句分词序列进行特征提取,得到前句特征向量及后句特征向量,并计算所述前句特征向量及所述后句特征向量的语义相似度,得到独立语义的第一语义相似度;利用所述第一特征提取模型对所述文本分词序列进行特征提取,得到文本特征向量,计算所述文本特征向量与所述后句特征向量的语义相似度,得到整个段落与后句的第二语义相似度;利用预设第二特征提取模型分别提取所述前句分词序列及所述后句分词序列的前句语义表示向量及后句语义表示向量,计算所述前句语义表示向量及所述后句语义表示向量的语义相似度,得到非独立的第三语义相似度;对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均,得到所述前句与所述后句的目标相似度,根据所述目标相似度确定前句及后句的分段结果,充分结合了独立语义相似度、非独立语义相似度、整个段落和后续句子之间的连贯相似度,能够更准确判断所述前句与所述后句的相似度,从而更准确的进行语义分段。因此本发明提出的离散文本语义分段方法、装置、电子设备及计算机可读存储介质,可以解决进行离散文本语义分段不准确的问题。
附图说明
图1为本发明一实施例提供的离散文本语义分段方法的流程示意图;
图2为图1所示离散文本语义分段方法中其中一个步骤的详细实施流程示意图;
图3为图1所示离散文本语义分段方法中其中另一个步骤的详细实施流程示意图;
图4为本发明一实施例提供的离散文本语义分段装置的功能模块图;
图5为本发明一实施例提供的实现所述离散文本语义分段方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种离散文本语义分段方法。所述离散文本语义分段方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述离散文本语义分段方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的离散文本语义分段方法的流程示意图。在本实施例中,所述离散文本语义分段方法包括:
S1、获取待分段离散文本,对所述待分段离散文本进行分句,得到文本分句序列,从所述文本分句序列中选取相邻两个句子作为相邻句,分别对所述文本分句序列、所述相邻句中的前句及后句进行分词,得到文本分词序列、前句分词序列及后句分词序列。
本发明实施例中,所述待分段离散文本可以是没有进行分段的离散文本,例如金融交易系统的票据信息,医疗问诊台中诊疗信息等。本发明实施例中,可以根据标点符号对所述待分段离散文本进行分句,得到文本分句序列,其中所述文本分句序列包含所述待分段离散文本中所有的句子。
本发明实施例中,从所述文本分句序列中顺序选取相邻两个句子作为相邻句,所述相邻句中在前面的为前句,在后面的为后句。
本发明实施例中,所述分词就是将句子等这种长文本,分解为以字词为单位的数据结构。
本发明实施例中,可以利用jieba分词工具、THULAC分词工具等常用分词工具分别对所述文本分句序列、所述相邻句中的前句及后句进行分词进行分词,得到文本分词序列、前句分词序列及后句分词序列。例如所述相邻句中的前句为“最近我们组织了学生健康的问卷调查”可以分词得到“最近我们组织了学生健康的问卷调查”。
S2、利用预设的第一特征提取模型提取所述前句分词序列的前句特征向量及提取所述后句分词序列的后句特征向量,计算所述后句特征向量与所述前句特征向量的第一语义相似度。
本发明其中一实施例中,所述预设的第一特征提取模型可以为双向长短期记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)模型,能够够更好捕获句子中上下文的信息。
详细地,S2中所述计算所述后句特征向量与所述前句特征向量的第一语义相似度,包括:
分别对所述前句特征向量及所述后句特征向量进行均值池化,得到前句均值特征向量及后句均值特征向量;
利用预设多层感知器网络分类器拟合所述前句均值特征向量及所述后句均值特征向量的语义相似度,得到第一语义相似度。
本发明实施例中,所述预设多层感知器网络(Multilayer Perceptron,MLP)分类器可以让特征向量在不同维度之间做充分的交叉,得到相似度更加准确。
本发明实施例中,利用预设的第一特征提取模型对所述前句分词序列及所述后句分词序列进行特征提取,得到前句特征向量及后句特征向量,使得所述前句特征向量及所述后句特征向量保持相互独立,避免因为句子语义关联性,影响第一语义相似度的准确性。
本发明实施例中,分别对所述前句特征向量及所述后句特征向量进行均值池化,得到一维的前句均值特征向量及后句均值特征向量;利用预设多层感知器网络分类器拟合所述前句均值特征向量及所述后句均值特征向量的语义相似度,比利用点积方式计算语义相似度能够抓取到更多的非线性特征和组合特征,从而使得第一语义相似度更加准确。
S3、利用所述第一特征提取模型提取所述文本分词序列的文本特征向量,计算所述后句特征向量与所述文本特征向量的第二语义相似度;
详细地,参阅图2所示,S3中所述计算所述后句特征向量与所述文本特征向量的第二语义相似度文本特征向量,包括:
S31、拼接所述文本特征向量与所述后句特征向量,得到第一拼接特征向量;
S32、根据预设词注意力机制,计算所述待分段离散文本的文本加权求和特征向量;
S33、拼接所述第一拼接特征向量与所述文本加权求和特征向量,得到第二拼接向量;
S34、基于所述第二拼接向量,利用预设多层感知器网络分类器计算所述文本特征向量与所述后句特征向量的相似度,得到第二语义相似度。
更进一步地,参阅图3所示,所述S32包括:
S321、分别将所述后句特征向量中每个词向量与所述文本特征向量中每个词向量进行内积计算,得到内积值集;
S322、对所述内积值集进行归一化,得到注意力权重集;
S323、利用所述注意力权重集,对所述文本特征向量中每个词向量进行加权求和,得到文本加权求和特征向量。
本发明实施例中,所述文本特征向量中有M个词向量,则所述内积值集包含M个内积值。
本发明实施例中,可以利用softmax函数对所述内积值集进行归一化,得到包含M个注意力权重的注意力权重集;进一步将M个注意力权重与所述文本特征向量中对应的M个词向量进行加权求和,得到文本加权求和特征向量。
本发明实施例中,充分考虑待分段离散文本与后句之间的语义关联性,计算所述文本特征向量与所述后句特征向量的语义相似度,得到的第二语义相似度,更能体现语义的连贯性。
S4、利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,计算所述前句语义表示向量及所述后句语义表示向量的第三语义相似度。
本发明其中一实施例中,所述预设第二特征提取模型可以为BERT(BidirectionalEncoder Representations from Transformer)模型,所述BERT模型为基于双向Transformer的大规模预训练语言模型,拥有强大的语言表征能力和特征提取能力,可提取文本中每个词的特征。
详细地,S4中所述利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,包括:
分别在所述前句分词序列及所述后句分词序列前插入CLS符号,得到目标前句分词序列及目标后句分词序列;
利用预设第二特征提取模型对所述目标前句分词序列及所述目标后句分词序列进行编码,得到所述目标前句分词序列及所述目标后句分词序列对应CLS符号对应的编码向量,将所述目标前句分词序列中CLS符号对应的编码向量作为前句语义表示向量,将所述目标后句分词序列中CLS符号对应的编码向量作为后句语义表示向量。
本发明实施例中,所述CLS符号可以通过Self-Attention机制来获取句子级别的信息表示,将CLS符号对应的输出向量作为对应文本的语义表示。
本发明实施例中,利用预设第二特征提取模型分别提取所述前句分词序列及所述后句分词序列的前句语义表示向量及后句语义表示向量,由于预设第二特征提取模型中的自注意力机制,得到后句分词序列的前句语义表示向量及后句语义表示向量会相互影响,计算所述前句语义表示向量及所述后句语义表示向量的语义相似度,得到非独立的第三语义相似度,从语义角度计算文本相似度。
S5、对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均,得到所述前句与所述后句的目标相似度,并根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果。
本发明实施例中,对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均,得到所述前句与所述后句的目标相似度,充分结合了独立语义、非独立语义相似度、整个段落和后续句子之间的相似度,能够更准确判断所述前句与所述后句的相似度,从而更准确的进行语义分段。
详细地,S6中所述所述根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果,包括:
当所述前句与所述后句的目标相似度小于等于预设相似度阈值时,所述前句及后句的分段结果为所述前句及后句需要分段;
从所述文本分句序列中剔除起始分句,得到更新后的文本分句序列,从所述更新后的文本分句序列顺序选出下一相邻句,计算下一相邻句中前句及后句的目标相似度,直至所述文本分句序列中所有相邻句选择完毕,得到所有所述前句与所述后句的分段结果;
汇总所有所述前句及后句的分段结果,得到所述待分段离散文本的分段结果。
本发明实施例中,当所述目标相似度大于预设的相似度阈值时,表示所述前句与所述后句相似,所述前句不为一个语义段落;当所述目标相似度小于等于预设的相似度阈值时,表示所述前句与所述后句不相似,以第一句作为分段点,进行文本分段,所述待分段离散文本的前句为一个独立语义段落。
本发明实施例中,当所述分段结果为所述前句及后句需要分段时,从所述文本分句序列中剔除起始分句,得到更新后的文本分句序列,从所述文本分句序列中选取起始句作为前句及选取第二句作为后句,继续进行语义相似度计算,直至所述待分段离散文本中所有句子被选择完毕,得到所述待分段离散文本的分段结果。
详细地,所述根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果,还包括:
当所述前句与所述后句的目标相似度小于等于预设相似度阈值时,所述前句及后句的分段结果为所述前句及后句不需要分段;
将所述前句及后句合并作为更新后相邻句的前句,并按照顺序从所述文本分句序列中选取一个未被选取过的分句作为更新后相邻句的后句;
计算所述更新后相邻句中前句及后句的目标相似度,直至所述文本分句序列中所有相邻句选择完毕,得到所有所述前句与所述后句的分段结果;
汇总所有所述前句及后句的分段结果,得到所述待分段离散文本的分段结果。
本发明实施例中,当所述第一分段结果为所述前句及后句不需要分段时,表示所述前句与所述后句语义相近为同一段落,合并所述前句及所述后句,将合并结果更新为前句,将所述文本分句序列中下一句未选取的句子作为后句,继续进行语义相似度计算,直至所述待分段离散文本中所有句子被选择完毕,得到所述待分段离散文本的分段结果。
本发明实施例通过确定待分段离散文本中的前句和后句,其中,所述前句和后句分别为所述待分段离散文本中相邻的两个分句或者确定为无需分段的分句集合,利用预设的第一特征提取模型对所述前句分词序列及所述后句分词序列进行特征提取,得到前句特征向量及后句特征向量,并计算所述前句特征向量及所述后句特征向量的语义相似度,得到独立语义的第一语义相似度;利用所述第一特征提取模型对所述文本分词序列进行特征提取,得到文本特征向量,计算所述文本特征向量与所述后句特征向量的语义相似度,得到整个段落与后句的第二语义相似度;利用预设第二特征提取模型分别提取所述前句分词序列及所述后句分词序列的前句语义表示向量及后句语义表示向量,计算所述前句语义表示向量及所述后句语义表示向量的语义相似度,得到非独立的第三语义相似度;对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均,得到所述前句与所述后句的目标相似度,根据目标相似度确定前句及后句的分段结果,充分结合了独立语义相似度、非独立语义相似度、整个段落和后续句子之间的连贯相似度,能够更准确判断所述前句与所述后句的相似度,从而更准确的进行语义分段。因此本发明提出的离散文本语义分段方法,可以解决进行离散文本语义分段不准确的问题。
如图4所示,是本发明一实施例提供的离散文本语义分段装置的功能模块图。
本发明所述离散文本语义分段装置100可以安装于电子设备中。根据实现的功能,所述离散文本语义分段装置100可以包括分词模块101、第一相似度计算模块102、第二相似度计算模块103、第三相似度计算模块104及分段模块。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述分词模块101,用于获取待分段离散文本,对所述待分段离散文本进行分句,得到文本分句序列,从所述文本分句序列中选取相邻两个句子作为相邻句,分别对所述文本分句序列、所述相邻句中的前句及后句进行分词,得到文本分词序列、前句分词序列及后句分词序列;
所述第一相似度计算模块102,用于利用预设的第一特征提取模型提取所述前句分词序列的前句特征向量及提取所述后句分词序列的后句特征向量,计算所述后句特征向量与所述前句特征向量的第一语义相似度;
所述第二相似度计算模块103,用于利用所述第一特征提取模型提取所述文本分词序列的文本特征向量,计算所述后句特征向量与所述文本特征向量的第二语义相似度;
所述第三相似度计算模块104,利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,计算所述前句语义表示向量及所述后句语义表示向量的第三语义相似度;
所述分段模块105,对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均,得到所述前句与所述后句的目标相似度,并根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果。
详细地,本发明实施例中所述离散文本语义分段装置100中所述的各模块在使用时采用与上述图1至图3中所述的离散文本语义分段方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明一实施例提供的实现离散文本语义分段方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如离散文本语义分段程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行离散文本语义分段程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如离散文本语义分段程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的离散文本语义分段程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取待分段离散文本,对所述待分段离散文本进行分句,得到文本分句序列,从所述文本分句序列中选取相邻两个句子作为相邻句,分别对所述文本分句序列、所述相邻句中的前句及后句进行分词,得到文本分词序列、前句分词序列及后句分词序列;
利用预设的第一特征提取模型提取所述前句分词序列的前句特征向量及提取所述后句分词序列的后句特征向量,计算所述后句特征向量与所述前句特征向量的第一语义相似度;
利用所述第一特征提取模型提取所述文本分词序列的文本特征向量,计算所述后句特征向量与所述文本特征向量的第二语义相似度;
利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,计算所述前句语义表示向量及所述后句语义表示向量的第三语义相似度;
对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均,得到所述前句与所述后句的目标相似度,并根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取待分段离散文本,对所述待分段离散文本进行分句,得到文本分句序列,从所述文本分句序列中选取相邻两个句子作为相邻句,分别对所述文本分句序列、所述相邻句中的前句及后句进行分词,得到文本分词序列、前句分词序列及后句分词序列;
利用预设的第一特征提取模型提取所述前句分词序列的前句特征向量及提取所述后句分词序列的后句特征向量,计算所述后句特征向量与所述前句特征向量的第一语义相似度;
利用所述第一特征提取模型提取所述文本分词序列的文本特征向量,计算所述后句特征向量与所述文本特征向量的第二语义相似度;
利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,计算所述前句语义表示向量及所述后句语义表示向量的第三语义相似度;
对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均,得到所述前句与所述后句的目标相似度,并根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种离散文本语义分段方法,其特征在于,所述方法包括:
获取待分段离散文本,对所述待分段离散文本进行分句,得到文本分句序列,从所述文本分句序列中选取相邻两个句子作为相邻句,分别对所述文本分句序列、所述相邻句中的前句及后句进行分词,得到文本分词序列、前句分词序列及后句分词序列;
利用预设的第一特征提取模型提取所述前句分词序列的前句特征向量及提取所述后句分词序列的后句特征向量,计算所述后句特征向量与所述前句特征向量的第一语义相似度;
利用所述第一特征提取模型提取所述文本分词序列的文本特征向量,计算所述后句特征向量与所述文本特征向量的第二语义相似度;
利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,计算所述前句语义表示向量及所述后句语义表示向量的第三语义相似度;
对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均,得到所述前句与所述后句的目标相似度,并根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果。
2.如权利要求1所述的离散文本语义分段方法,其特征在于,所述计算所述后句特征向量与所述前句特征向量的第一语义相似度,包括:
分别对所述前句特征向量及所述后句特征向量进行均值池化,得到前句均值特征向量及后句均值特征向量;
利用预设多层感知器网络分类器拟合所述前句均值特征向量及所述后句均值特征向量的语义相似度,得到第一语义相似度。
3.如权利要求1所述的离散文本语义分段方法,其特征在于,所述计算所述后句特征向量与所述文本特征向量的第二语义相似度文本特征向量,包括:
拼接所述文本特征向量与所述后句特征向量,得到第一拼接特征向量;
根据预设词注意力机制,计算所述待分段离散文本的文本加权求和特征向量;
拼接所述第一拼接特征向量与所述文本加权求和特征向量,得到第二拼接向量;
基于所述第二拼接向量,利用预设多层感知器网络分类器计算所述文本特征向量与所述后句特征向量的相似度,得到第二语义相似度。
4.如权利要求3所述的离散文本语义分段方法,其特征在于,所述根据预设词注意力机制,计算所述待分段离散文本的文本加权求和特征向量文本加权求和特征向量,包括:
分别将所述后句特征向量中每个词向量与所述文本特征向量中每个词向量进行内积计算,得到内积值集;
对所述内积值集进行归一化,得到注意力权重集;
利用所述注意力权重集,对所述文本特征向量中每个词向量进行加权求和,得到文本加权求和特征向量。
5.如权利要求1所述的离散文本语义分段方法,其特征在于,所述利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,包括:
分别在所述前句分词序列及所述后句分词序列前插入CLS符号,得到目标前句分词序列及目标后句分词序列;
利用预设第二特征提取模型对所述目标前句分词序列及所述目标后句分词序列进行编码,得到所述目标前句分词序列及所述目标后句分词序列对应CLS符号对应的编码向量,将所述目标前句分词序列中CLS符号对应的编码向量作为前句语义表示向量,将所述目标后句分词序列中CLS符号对应的编码向量作为后句语义表示向量。
6.如权利要求1所述的离散文本语义分段方法,其特征在于,所述根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果,包括:
当所述前句与所述后句的目标相似度小于等于预设相似度阈值时,所述前句及后句的分段结果为所述前句及后句需要分段;
从所述文本分句序列中剔除起始分句,得到更新后的文本分句序列,从所述更新后的文本分句序列顺序选出下一相邻句,计算下一相邻句中前句及后句的目标相似度,直至所述文本分句序列中所有相邻句选择完毕,得到所有所述前句与所述后句的分段结果;
汇总所有所述前句及后句的分段结果,得到所述待分段离散文本的分段结果。
7.如权利要求1所述的离散文本语义分段方法,其特征在于,所述根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果,还包括:
当所述前句与所述后句的目标相似度小于等于预设相似度阈值时,所述前句及后句的分段结果为所述前句及后句不需要分段;
将所述前句及后句合并作为更新后相邻句的前句,并按照顺序从所述文本分句序列中选取一个未被选取过的分句作为更新后相邻句的后句;
计算所述更新后相邻句中前句及后句的目标相似度,直至所述文本分句序列中所有相邻句选择完毕,得到所有所述前句与所述后句的分段结果;
汇总所有所述前句及后句的分段结果,得到所述待分段离散文本的分段结果。
8.一种离散文本语义分段装置,其特征在于,所述装置包括:
分词模块,用于获取待分段离散文本,对所述待分段离散文本进行分句,得到文本分句序列,从所述文本分句序列中选取相邻两个句子作为相邻句,分别对所述文本分句序列、所述相邻句中的前句及后句进行分词,得到文本分词序列、前句分词序列及后句分词序列;
第一相似度计算模块,用于利用预设的第一特征提取模型提取所述前句分词序列的前句特征向量及提取所述后句分词序列的后句特征向量,计算所述后句特征向量与所述前句特征向量的第一语义相似度;
第二相似度计算模块,用于利用所述第一特征提取模型提取所述文本分词序列的文本特征向量,计算所述后句特征向量与所述文本特征向量的第二语义相似度;
第三相似度计算模块,利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,计算所述前句语义表示向量及所述后句语义表示向量的第三语义相似度;
分段模块,对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均,得到所述前句与所述后句的目标相似度,并根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的离散文本语义分段方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的离散文本语义分段方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310617721.6A CN116681082A (zh) | 2023-05-29 | 2023-05-29 | 离散文本语义分段方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310617721.6A CN116681082A (zh) | 2023-05-29 | 2023-05-29 | 离散文本语义分段方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116681082A true CN116681082A (zh) | 2023-09-01 |
Family
ID=87790151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310617721.6A Pending CN116681082A (zh) | 2023-05-29 | 2023-05-29 | 离散文本语义分段方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116681082A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116911288A (zh) * | 2023-09-11 | 2023-10-20 | 戎行技术有限公司 | 一种基于自然语言处理技术的离散文本识别方法 |
CN117592455A (zh) * | 2023-11-29 | 2024-02-23 | 云南大学 | 一种文本的动态可变邻近语义连贯性评估方法与装置 |
-
2023
- 2023-05-29 CN CN202310617721.6A patent/CN116681082A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116911288A (zh) * | 2023-09-11 | 2023-10-20 | 戎行技术有限公司 | 一种基于自然语言处理技术的离散文本识别方法 |
CN116911288B (zh) * | 2023-09-11 | 2023-12-12 | 戎行技术有限公司 | 一种基于自然语言处理技术的离散文本识别方法 |
CN117592455A (zh) * | 2023-11-29 | 2024-02-23 | 云南大学 | 一种文本的动态可变邻近语义连贯性评估方法与装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113449187B (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
CN116681082A (zh) | 离散文本语义分段方法、装置、设备及存储介质 | |
CN113378970B (zh) | 语句相似性检测方法、装置、电子设备及存储介质 | |
CN113704410B (zh) | 情绪波动检测方法、装置、电子设备及存储介质 | |
CN115238670B (zh) | 信息文本抽取方法、装置、设备及存储介质 | |
CN113627160B (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN113658002B (zh) | 基于决策树的交易结果生成方法、装置、电子设备及介质 | |
CN113344125B (zh) | 长文本匹配识别方法、装置、电子设备及存储介质 | |
CN114840684A (zh) | 基于医疗实体的图谱构建方法、装置、设备及存储介质 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN116468025A (zh) | 电子病历结构化方法、装置、电子设备及存储介质 | |
CN116719904A (zh) | 基于图文结合的信息查询方法、装置、设备及存储介质 | |
CN116450829A (zh) | 医疗文本分类方法、装置、设备及介质 | |
CN116705304A (zh) | 基于图像文本的多模态任务处理方法、装置、设备及介质 | |
CN116701574A (zh) | 文本语义相似度计算方法、装置、设备及存储介质 | |
CN116680580A (zh) | 基于多模态训练的信息匹配方法、装置、电子设备及介质 | |
CN116628162A (zh) | 语义问答方法、装置、设备及存储介质 | |
CN116383766A (zh) | 基于多模态数据的辅诊方法、装置、设备及存储介质 | |
CN115114408A (zh) | 多模态情感分类方法、装置、设备及存储介质 | |
CN114676307A (zh) | 基于用户检索的排序模型训练方法、装置、设备及介质 | |
CN113806540A (zh) | 文本打标签方法、装置、电子设备及存储介质 | |
CN114462411B (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN114239595B (zh) | 回访名单智能生成方法、装置、设备及存储介质 | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN116701635A (zh) | 培训视频文本二分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |