CN117592455A - 一种文本的动态可变邻近语义连贯性评估方法与装置 - Google Patents
一种文本的动态可变邻近语义连贯性评估方法与装置 Download PDFInfo
- Publication number
- CN117592455A CN117592455A CN202311606296.7A CN202311606296A CN117592455A CN 117592455 A CN117592455 A CN 117592455A CN 202311606296 A CN202311606296 A CN 202311606296A CN 117592455 A CN117592455 A CN 117592455A
- Authority
- CN
- China
- Prior art keywords
- text
- consistency
- sentence
- adjacent
- sentence text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 5
- 239000002420 orchard Substances 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000001427 coherent effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 208000010392 Bone Fractures Diseases 0.000 description 3
- 235000012054 meals Nutrition 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000019129 pluma Nutrition 0.000 description 1
- 244000276444 pluma Species 0.000 description 1
- 235000019070 pluma del Caribe Nutrition 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种文本的动态可变邻近语义连贯性评估方法与装置。该方法包括:获取文本信息;将文本信息分割成若干单句语句文本;确定第一单句语句文本与第二单句语句文本之间的第一连贯性评分;根据第一连贯性评分是否趋于连贯,来动态合并相邻的若干条语句,并确定动态合并后的语句文本与其相邻的下一单句语句文本之间的连贯性评分,直到最后一个单句语句文本的连贯性评分被确定;根据所有相邻单句语句文本之间确定的所有连贯性评分即可确定所述文本信息的语义连贯性。本发明提供的方法,提高了文本语义信息连贯性的评估精度和文本按语义分割的准确性。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种文本的动态可变邻近语义连贯性评估方法与装置。
背景技术
文本和对话分割的目的是将文本和对话分割成语义连贯的线性序列片段,每个片段中的文本都密切相关。它在社交媒体分析、摘要分析、对话归纳、对话生成、反馈预测、对话评价、问答,以及众包协同文本处理任务切分分配等多种任务中发挥着至关重要的作用。
语义的连贯性评估是对话和文本分割任务的关键,决定了分割的合理和准确性。目前的方法主要侧重于计算相邻的两个单句语句文本或固定个数单句语句文本之间的连贯性。但是对话的结构和特点与单纯的文本不同。对话是一系列交互的语言行为,更加简短、精炼。单句对话很大程度上依赖于前面的上下文,并且存在更多的主题漂移以及指代现象,有时还涉及多个参与者。而现有方法,往往由于短句语义信息的丢失,从而导致语义信息连贯性评估时误差增大的问题。
发明内容
本发明提供一种文本的动态可变邻近语义连贯性评估方法与装置,用以解决现有技术中语义信息连贯性评估误差大的缺陷。
一种文本的动态可变邻近语义连贯性评估方法,包括:
获取文本信息;
将所述文本信息分割成若干单句语句文本;
确定第一单句语句文本与第二单句语句文本之间的第一连贯性评分;所述第一单句语句文本与第二单句语句文本为一对相邻的语句文本;
根据所述第一连贯性评分是否趋于连贯,来动态合并相邻的若干条语句,并确定动态合并后的语句文本与其相邻的下一单句语句文本之间的连贯性评分,直到最后一个单句语句文本的连贯性评分被确定;
根据所有相邻单句语句文本之间确定的所有连贯性评分即可确定所述文本信息的语义连贯性。
进一步地,如上所述的文本的动态可变邻近语义连贯性评估方法,所述根据所述第一连贯性评分是否趋于连贯,来动态合并相邻的若干条语句,并确定动态合并后的语句文本与其相邻的下一单句语句文本之间的连贯性评分,直到最后一个单句语句文本的连贯性评分被确定包括:
在所述第一连贯性评分为趋于连贯的情况下,将所述第一单句语句文本与第二单句语句文本合并,作为所述动态合并后的语句文本。
进一步地,如上所述的文本的动态可变邻近语义连贯性评估方法,在所述第一连贯性评分为不趋于连贯的情况下,将所述第二单句语句文本与其相邻的下一单句语句文本合并,并确定合并后的语句文本与所述第一单句语句文本之间的第二连贯性评分;
在所述第二连贯性评分为趋于连贯的情况下,将所述第一单句语句文本、第二单句语句文本、与所述第二单句语句文本相邻的下一单句语句文本合并,作为所述动态合并后的语句文本。
进一步地,如上所述的文本的动态可变邻近语义连贯性评估方法,在所述第二连贯性评分为不趋于连贯的情况下,以所述第二单句语句文本作为前置语句,判断与其相邻的下一单句语句文本之间的连贯性评分。
进一步地,如上所述的文本的动态可变邻近语义连贯性评估方法,根据所有相邻单句语句文本之间确定的所有连贯性评分即可确定所述文本信息的语义连贯性包括:
确定完所有相邻单句语句文本之间的连贯性评分后,即可按各相邻句之间的连贯性确定所述文本信息的语义连贯性,并据此完成文本分割。
一种文本的动态可变邻近语义连贯性评估装置,包括:
获取单元,用于获取文本信息;
分割单元,用于将所述文本信息分割成若干单句语句文本;
确定单元,用于确定第一单句语句文本与第二单句语句文本之间的第一连贯性评分;所述第一单句语句文本与第二单句语句文本为一对相邻的语句文本;
所述确定单元,还用于根据所述第一连贯性评分是否趋于连贯,来动态合并相邻的若干条语句,并确定动态合并后的语句文本与其相邻的下一单句语句文本之间的连贯性评分,直到最后一个单句语句文本的连贯性评分被确定;
所述确定单元,还用于根据所有相邻单句语句文本之间确定的所有连贯性评分即可确定所述文本信息的语义连贯性。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本的动态可变邻近语义连贯性评估方法。
本发明提供的文本的动态可变邻近语义连贯性评估方法与装置,该方法通过根据第一单句语句文本与第二单句语句文本之间的第一连贯性评分,来确定下一单句语句文本与之前单句语句文本之间的连贯性评分,最终根据所有相邻单句语句文本之间确定的所有连贯性评分确定所述文本的语义连贯性,该方法提高了语义信息连贯性评估精度和文本按语义分割的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的文本的动态可变邻近语义连贯性评估方法流程图之一;
图2为本发明提供的文本的动态可变邻近语义连贯性评估方法流程图之二;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,在语义连贯性建模中,为确定潜在句段边界而进行相邻句段的语义相似性计算时,采用了相邻的两个单句或者固定长度(例如上下各两句)的对话组合来进行语义相似性计算,但由于对话的交互性,以及常常出现的共指指代和上下文远距离依赖现象,这种采用静态相邻方法进行语义相似度计算的误差较大,降低了对话主题分割的准确度。为此,本发明提出了一种可变动态邻近语义连贯性评估计算方法,该方法根据语义相关度,使用可变的n个上下文句子,而不是单个对话句,来计算语义连贯性,再根据计算结果,标注发生语义主题变化的段边界,完成分割,从而避免远距离依赖带来的语义丢失,提升计算准确性。
下面对本发明的方案进行详细的介绍。
图1为本发明提供的文本的动态可变邻近语义连贯性评估方法流程图,如图1所示,该方法包括如下步骤:
步骤101:获取文本信息;
步骤102:将所述文本信息分割成若干单句语句文本;
步骤103:确定第一单句语句文本与第二单句语句文本之间的第一连贯性评分;所述第一单句语句文本与第二单句语句文本为一对相邻的语句文本;
步骤104:根据所述第一连贯性评分是否趋于连贯,来动态合并相邻的若干条语句,并确定动态合并后的语句文本与其相邻的下一单句语句文本之间的连贯性评分,直到最后一个单句语句文本的连贯性评分被确定;
步骤105:根据所有相邻单句语句文本之间确定的所有连贯性评分即可确定所述文本信息的语义连贯性。
进一步地,在所述第一连贯性评分为趋于连贯的情况下,将所述第一单句语句文本与第二单句语句文本合并,作为所述动态合并后的语句文本。在所述第一连贯性评分为不趋于连贯的情况下,将所述第二单句语句文本与其相邻的下一单句语句文本合并,并确定合并后的语句文本与所述第一单句语句文本之间的第二连贯性评分;
在所述第二连贯性评分为趋于连贯的情况下,将所述第一单句语句文本、第二单句语句文本、与所述第二单句语句文本相邻的下一单句语句文本合并,作为所述动态合并后的语句文本。在所述第二连贯性评分为不趋于连贯的情况下,以所述第二单句语句文本作为前置语句,判断与其相邻的下一单句语句文本之间的连贯性评分。
具体地,对话主题语义分割的目标是根据对话文本的主题语义确定对话的段边界。为描述本发明提供的方法,假设给定对话D有n句对话句,表示为:D={u1,u2,...,un},n和n-1两两间隔相邻的对话句构成句对vi,表示为V={v1,v2,...,vn-1}。分割结果表示为R={r1,r2,...,rn-1},其中ri是一个二进制值,代表话语ui是否为段边界,1则是段边界,0则不是。
在分割时,会在ui和ui+1之间计算语义连贯性评分si,si∈[0,1],si越接近于1则表示ui和ui+1属于同一段的概率越高。在完成所有连贯性分数计算后,得到S={s1,s2,...,sn-1},再据此得出分段边界。
图2为本发明提供的文本的动态可变邻近语义连贯性评估方法流程图之二,如图2所示,本发明实施例以一对相邻的对话句(x,y)作为输入。连贯性评估模型的输出结果形式为[趋于连贯的数值C1,趋于不连贯的数值C2],当C1大于C2时,即认为趋于连贯,否则为趋于不连贯。一开始,x,y即ui和ui+1,然后对ui和ui+1之间的连贯性进行判断。如果趋于连贯,则将ui和ui+1两句拼接成uiui+1,作为模型下一轮输入的x,并输出连贯性评分S。如果判断ui和ui+1趋于不连贯时,先保存C1为Stmp,然后扩展增加后续相邻的句子,将ui+1扩展拼接为ui+1 ui+2作为y,再进一步判断ui和ui+1 ui+2之间的连贯性趋势。如果扩展后的增量判断趋向于连贯,则认为ui和ui+1也趋向于连贯,并把S赋值为此时得到的C1。如果扩展后判断仍然趋于不连贯,那么认为ui和ui+1确实倾向于不相关。因此,把之前保留的评分Stmp作为未扩展前的句对ui和ui+1的连贯性评分,再把ui+1单独作为模型下一轮的输入x,ui+2作为y,循环进入下一轮句对判断,直至全部对话句D判断完成。
下面以一具体实施例对本发明提供的方案做具体说明:
本实例构建的待完成任务由以下话语组成的对话作为示范:
1、你喜欢吃梅子吗?
2、喜欢啊。
3、那不如我们小院搞个团建吧。
4、团建?
5、去果园采摘,一边吃一边拿。
6、费用呢?多少钱一个人?
7、提什么钱呀,我请客,还管饭。
8、那可以啊,老板请客。什么时候?
9、择日不如撞日,那就明天吧。
10、明天啊?
11、你有安排?
12、那倒没有。
13、那就这么定了。
14、明天娜娜要去店里啊。
15、那就歇业。
任务以话语对的形式进行。
第一轮输入话语对:(“你喜欢吃梅子吗?”,“喜欢啊。”),首先判断其连贯性趋势,连贯性评分模型的输出结果形式为[C1,C2],这里,得出的结果为C1>C2趋于连贯,基于此,下一轮输入话语对的前置设定为:“你喜欢吃梅子吗?喜欢啊。”,同时得到本轮输入话语对的连贯性分数是s1,s1取为sigmoid(C1)。
第一轮过后的实例状态如下表1:
表1
编号 | 输入话语对 | 连贯性分数 | 下一轮输入前置 |
1 | “你喜欢吃梅子吗?”,“喜欢啊。” | s1 | “你喜欢吃梅子吗?喜欢啊。” |
第二轮输入话语对:(“你喜欢吃梅子吗?喜欢啊。”,“那不如我们小院搞个团建吧。”),首先判断其连贯性趋势,连贯性评分模型的输出结果[C1,C2],且C1<C2判定为趋于不连贯,则扩大输入话语对的后置,通过增加后置信息,对输入话语对多做一轮连贯性趋势判断,即再次判断(“你喜欢吃梅子吗?喜欢啊。”,“那不如我们小院搞个团建吧。团建?”)的连贯性趋势,此时输出结果为[C3,C4],且C3<C4,扩增话语对仍判定为趋于不连贯。双重不连贯,说明输入话语对(“你喜欢吃梅子吗?喜欢啊。”,“那不如我们小院搞个团建吧。”)确实是趋于不连贯的。基于此,下一轮输入话语对的前置更新为:“那不如我们小院搞个团建吧。”,同时得到本轮输入话语对的连贯性分数s2。s2等于sigmoid(C1)
第二轮过后的实例状态如下表2:
表2
第三轮输入话语对:(“那不如我们小院搞个团建吧。”,“团建?”),首先判断其连贯性趋势,连贯性评分模型判定为趋于连贯。基于此,下一轮输入话语对的前置设定为:“那不如我们小院搞个团建吧。团建?”,同时得到本轮输入话语对的连贯性分数s3。
第三轮过后的实例状态如下表3:
表3
第四轮输入话语对:(“那不如我们小院搞个团建吧。团建?”,“去果园采摘,一边吃一边拿。”),首先判断其连贯性趋势,判定为趋于不连贯。扩大输入话语对的后置,再次判断(“那不如我们小院搞个团建吧。团建?”,“去果园采摘,一边吃一边拿。费用呢?多少钱一个人?”)的连贯性趋势,仍判定为趋于不连贯。双重不连贯,说明输入话语对(“那不如我们小院搞个团建吧。团建?”,“去果园采摘,一边吃一边拿。”)确实是趋于不连贯的。基于此,下一轮输入话语对的前置更新为:“去果园采摘,一边吃一边拿。”,同时得到本轮输入话语对的连贯性分数s4。
第四轮过后的实例状态如下表4:
表4
第五轮输入话语对:(“去果园采摘,一边吃一边拿。”,“费用呢?多少钱一个人?”),先判断其连贯性趋势,连贯性评分判定为趋于连贯。基于此,下一轮输入话语对的前置设定为:“去果园采摘,一边吃一边拿。费用呢?多少钱一个人?”,同时得到本轮输入话语对的连贯性分数s5。
第五轮过后的实例状态如下表5:
表5
第六轮输入话语对:(“去果园采摘,一边吃一边拿。费用呢?多少钱一个人?”,“提什么钱呀,我请客,还管饭。”),先判断其连贯性趋势,判定为趋于连贯。基于此,下一轮输入话语对的前置设定为:“去果园采摘,一边吃一边拿。费用呢?多少钱一个人?提什么钱呀,我请客,还管饭。”,同时得到本轮输入话语对的连贯性分数s6。
第六轮过后的实例状态如下表6:
表6:
如此反复,直到最后第十四轮输入话语对:(“去果园采摘,一边吃一边拿。费用呢?多少钱一个人?提什么钱呀,我请客,还管饭。那可以啊,老板请客。什么时候?择日不如撞日,那就明天吧。明天啊?你有安排?那倒没有。那就这么定了。明天娜娜要去店里啊。”,“那就歇业。”),先判断其连贯性趋势,输入话语对判定为趋于连贯。基于此,下一轮输入话语对的前置设定为:“去果园采摘,一边吃一边拿。费用呢?多少钱一个人?提什么钱呀,我请客,还管饭。那可以啊,老板请客。什么时候?择日不如撞日,那就明天吧。明天啊?你有安排?那倒没有。那就这么定了。明天娜娜要去店里啊。那就歇业。”,同时得到本轮输入话语对的连贯性分数s14。
第十四轮过后的实例状态如下表14:
表14:
至此,得到了所有话语对之间的连贯性分数s={s1,s2,…,s14},即可根据该连贯性分数得出该段文本的语义连贯情况,并得到分割点。最终结果为:本例有2个分割点,分别在第2句和第4句之后。
本发明提供的动态可变邻近的上下文连贯性评估方法将对单个句对的判断根据相关性动态地扩展到语义相关的数个语句中,解决了现有语义连贯性评分模型在对话语义分割过程中由于对话远距离上下文关联带来的评估误差问题。
下面对本发明提供的一种文本的动态可变邻近语义连贯性评估装置进行描述,下文描述的一种文本的动态可变邻近语义连贯性评估装置与上文描述的一种文本的动态可变邻近语义连贯性评估方法可相互对应参照。
一种文本的动态可变邻近语义连贯性评估装置,包括:
获取单元,用于获取文本信息;
分割单元,用于将所述文本信息分割成若干单句语句文本;
确定单元,用于确定第一单句语句文本与第二单句语句文本之间的第一连贯性评分;所述第一单句语句文本与第二单句语句文本为一对相邻的语句文本;
所述确定单元,还用于根据所述第一连贯性评分是否趋于连贯,来动态合并相邻的若干条语句,并确定动态合并后的语句文本与其相邻的下一单句语句文本之间的连贯性评分,直到最后一个单句语句文本的连贯性评分被确定;
所述确定单元,还用于根据所有相邻单句语句文本之间确定的所有连贯性评分即可确定所述文本信息的语义连贯性。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(CommunicationsInterface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行文本的动态可变邻近语义连贯性评估方法。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种文本的动态可变邻近语义连贯性评估方法,其特征在于,包括:
获取文本信息;
将所述文本信息分割成若干单句语句文本;
确定第一单句语句文本与第二单句语句文本之间的第一连贯性评分;所述第一单句语句文本与第二单句语句文本为一对相邻的语句文本;
根据所述第一连贯性评分是否趋于连贯,来动态合并相邻的若干条语句,并确定动态合并后的语句文本与其相邻的下一单句语句文本之间的连贯性评分,直到最后一个单句语句文本的连贯性评分被确定;
根据所有相邻单句语句文本之间确定的所有连贯性评分即可确定所述文本信息的语义连贯性。
2.根据权利要求1所述的文本的动态可变邻近语义连贯性评估方法,其特征在于,根据所述第一连贯性评分是否趋于连贯,来动态合并相邻的若干条语句,并确定动态合并后的语句文本与其相邻的下一单句语句文本之间的连贯性评分,直到最后一个单句语句文本的连贯性评分被确定包括:
在所述第一连贯性评分为趋于连贯的情况下,将所述第一单句语句文本与第二单句语句文本合并,作为所述动态合并后的语句文本。
3.根据权利要求1所述的文本的动态可变邻近语义连贯性评估方法,其特征在于,在所述第一连贯性评分为不趋于连贯的情况下,将所述第二单句语句文本与其相邻的下一单句语句文本合并,并确定合并后的语句文本与所述第一单句语句文本之间的第二连贯性评分;
在所述第二连贯性评分为趋于连贯的情况下,将所述第一单句语句文本、第二单句语句文本、与所述第二单句语句文本相邻的下一单句语句文本合并,作为所述动态合并后的语句文本。
4.根据权利要求3所述的文本的动态可变邻近语义连贯性评估方法,其特征在于,在所述第二连贯性评分为不趋于连贯的情况下,以所述第二单句语句文本作为前置语句,判断与其相邻的下一单句语句文本之间的连贯性评分。
5.根据权利要求1所述的文本的动态可变邻近语义连贯性评估方法,其特征在于,根据所有相邻单句语句文本之间确定的所有连贯性评分即可确定所述文本信息的语义连贯性包括:
确定完所有相邻单句语句文本之间的连贯性评分后,即可按各相邻句之间的连贯性确定所述文本信息的语义连贯性,并据此完成文本分割。
6.一种文本的动态可变邻近语义连贯性评估装置,其特征在于,包括:
获取单元,用于获取文本信息;
分割单元,用于将所述文本信息分割成若干单句语句文本;
确定单元,用于确定第一单句语句文本与第二单句语句文本之间的第一连贯性评分;所述第一单句语句文本与第二单句语句文本为一对相邻的语句文本;
所述确定单元,还用于根据所述第一连贯性评分是否趋于连贯,来动态合并相邻的若干条语句,并确定动态合并后的语句文本与其相邻的下一单句语句文本之间的连贯性评分,直到最后一个单句语句文本的连贯性评分被确定;
所述确定单元,还用于根据所有相邻单句语句文本之间确定的所有连贯性评分即可确定所述文本信息的语义连贯性。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述文本的动态可变邻近语义连贯性评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311606296.7A CN117592455B (zh) | 2023-11-29 | 2023-11-29 | 一种文本的动态可变邻近语义连贯性评估方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311606296.7A CN117592455B (zh) | 2023-11-29 | 2023-11-29 | 一种文本的动态可变邻近语义连贯性评估方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117592455A true CN117592455A (zh) | 2024-02-23 |
CN117592455B CN117592455B (zh) | 2024-07-19 |
Family
ID=89919694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311606296.7A Active CN117592455B (zh) | 2023-11-29 | 2023-11-29 | 一种文本的动态可变邻近语义连贯性评估方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117592455B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060224584A1 (en) * | 2005-03-31 | 2006-10-05 | Content Analyst Company, Llc | Automatic linear text segmentation |
CN102314418A (zh) * | 2011-10-09 | 2012-01-11 | 北京航空航天大学 | 一种基于上下文关联的中文相似性比较方法 |
CN108897852A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 对话内容连贯性的判断方法、装置以及设备 |
CN110222654A (zh) * | 2019-06-10 | 2019-09-10 | 北京百度网讯科技有限公司 | 文本分割方法、装置、设备及存储介质 |
CN111428470A (zh) * | 2020-03-23 | 2020-07-17 | 北京世纪好未来教育科技有限公司 | 文本连贯性判定及其模型训练方法、电子设备及可读介质 |
CN112328756A (zh) * | 2020-10-13 | 2021-02-05 | 山东师范大学 | 基于上下文的对话生成方法及系统 |
CN112733545A (zh) * | 2020-12-28 | 2021-04-30 | 中电金信软件有限公司 | 文本分块方法、装置、计算机设备和存储介质 |
US20220398382A1 (en) * | 2021-06-09 | 2022-12-15 | International Business Machines Corporation | Determining unknown concepts from surrounding context |
CN116681082A (zh) * | 2023-05-29 | 2023-09-01 | 平安科技(深圳)有限公司 | 离散文本语义分段方法、装置、设备及存储介质 |
US11748571B1 (en) * | 2019-05-21 | 2023-09-05 | Educational Testing Service | Text segmentation with two-level transformer and auxiliary coherence modeling |
-
2023
- 2023-11-29 CN CN202311606296.7A patent/CN117592455B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060224584A1 (en) * | 2005-03-31 | 2006-10-05 | Content Analyst Company, Llc | Automatic linear text segmentation |
CN102314418A (zh) * | 2011-10-09 | 2012-01-11 | 北京航空航天大学 | 一种基于上下文关联的中文相似性比较方法 |
CN108897852A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 对话内容连贯性的判断方法、装置以及设备 |
US11748571B1 (en) * | 2019-05-21 | 2023-09-05 | Educational Testing Service | Text segmentation with two-level transformer and auxiliary coherence modeling |
CN110222654A (zh) * | 2019-06-10 | 2019-09-10 | 北京百度网讯科技有限公司 | 文本分割方法、装置、设备及存储介质 |
CN111428470A (zh) * | 2020-03-23 | 2020-07-17 | 北京世纪好未来教育科技有限公司 | 文本连贯性判定及其模型训练方法、电子设备及可读介质 |
CN112328756A (zh) * | 2020-10-13 | 2021-02-05 | 山东师范大学 | 基于上下文的对话生成方法及系统 |
CN112733545A (zh) * | 2020-12-28 | 2021-04-30 | 中电金信软件有限公司 | 文本分块方法、装置、计算机设备和存储介质 |
US20220398382A1 (en) * | 2021-06-09 | 2022-12-15 | International Business Machines Corporation | Determining unknown concepts from surrounding context |
CN116681082A (zh) * | 2023-05-29 | 2023-09-01 | 平安科技(深圳)有限公司 | 离散文本语义分段方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117592455B (zh) | 2024-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10936664B2 (en) | Dialogue system and computer program therefor | |
CN104050256B (zh) | 基于主动学习的问答方法及采用该方法的问答系统 | |
US11113335B2 (en) | Dialogue system and computer program therefor | |
CN108509591B (zh) | 信息问答交互方法及系统、存储介质、终端、智能知识库 | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
KR102100951B1 (ko) | 기계 독해를 위한 질의응답 데이터 생성 시스템 | |
WO2017210634A1 (en) | Iterative alternating neural attention for machine reading | |
JP6988924B2 (ja) | 質問群抽出方法、質問群抽出装置および質問群抽出プログラム | |
CN113569017B (zh) | 一种模型处理方法、装置、电子设备及存储介质 | |
CN109710087A (zh) | 输入法模型生成方法及装置 | |
KR20170122755A (ko) | 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템 | |
CN111737961B (zh) | 一种故事生成的方法、装置、计算机设备和介质 | |
CN104933022A (zh) | 信息处理装置和信息处理方法 | |
CN109934347B (zh) | 扩展问答知识库的装置 | |
CN111400479B (zh) | 针对多轮对话的问题识别方法和装置 | |
CN117592455B (zh) | 一种文本的动态可变邻近语义连贯性评估方法与装置 | |
CN117217801A (zh) | 基于游客真实评价的景区优化方案智能生成方法及系统 | |
JP2015153261A (ja) | 対話文生成装置、対話文生成方法およびプログラム | |
CN115203366A (zh) | 一种结果获取的方法、装置、电子设备及存储介质 | |
JP2016048463A (ja) | 次発話候補ランキング装置、方法、及びプログラム | |
JP7044245B2 (ja) | 対話システム補強装置及びコンピュータプログラム | |
JP7013331B2 (ja) | 抽出装置、抽出方法および抽出プログラム | |
JP2017167378A (ja) | 単語スコア計算装置、単語スコア計算方法及びプログラム | |
CN111428487A (zh) | 模型训练方法、歌词生成方法、装置、电子设备及介质 | |
Dzendzik et al. | Who framed roger rabbit? multiple choice questions answering about movie plot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |