CN112650836A - 基于句法结构元素语义的文本分析方法、装置及计算终端 - Google Patents

基于句法结构元素语义的文本分析方法、装置及计算终端 Download PDF

Info

Publication number
CN112650836A
CN112650836A CN202011575935.4A CN202011575935A CN112650836A CN 112650836 A CN112650836 A CN 112650836A CN 202011575935 A CN202011575935 A CN 202011575935A CN 112650836 A CN112650836 A CN 112650836A
Authority
CN
China
Prior art keywords
text
similarity
sentence
clause
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011575935.4A
Other languages
English (en)
Other versions
CN112650836B (zh
Inventor
李巧
朱永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Wangan Technology Development Co ltd
Original Assignee
Chengdu Wangan Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Wangan Technology Development Co ltd filed Critical Chengdu Wangan Technology Development Co ltd
Priority to CN202011575935.4A priority Critical patent/CN112650836B/zh
Publication of CN112650836A publication Critical patent/CN112650836A/zh
Application granted granted Critical
Publication of CN112650836B publication Critical patent/CN112650836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种基于句法结构元素语义的文本分析方法、装置及计算终端,通过对待分析文本的每个分句进行句法分析,抽取每个分句的句法结构元素集合以用于实现待分析文本与样本文本的比较分析。如此,充分考虑了每个分句的语义信息和结构信息,增加句法结构元素在待分析文本中所占的权重,可以提高对于短文本的相似度比较结果的准确性。

Description

基于句法结构元素语义的文本分析方法、装置及计算终端
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种基于句法结构元素语义的文本分析方法、装置及计算终端。
背景技术
文本相似度是指通过一定的策略比较不同文本之间的相似程度,通常被广泛地运用于基于自然语言处理的各个领域。例如,在搜索引擎领域,可以搜索到最佳检索内容。又例如,在论文查重领域,可以输出论文与数据库中参考论文的重合程度。又例如,在文本挖掘领域,可以输出主题相近的文本等。
然而,经本申请发明人研究发现,传统的技术在对短文本(例如字数为50-200的文本)进行文本相似度的比较过程中,由于文本特征较为稀疏,准确性往往较低。
发明内容
基于现有设计的不足,本申请提供一种基于句法结构元素语义的文本分析方法、装置及计算终端,可以提高对于短文本的相似度比较结果的准确性。
根据本申请的第一方面,提供一种基于句法结构元素语义的文本分析方法,应用于计算终端,所述方法包括:
对待分析文本进行分句,得到由多个分句组成的分句集合;
对每个所述分句进行句法分析,获得每个分句的句法结构元素集合;
对每个所述分句进行分词,得到包括多个第一分词的第一分词结果,并计算每个所述第一分词的词频信息;
根据所述每个分句的句法结构元素集合构建所述待分析文本对应的第一词袋模型;
根据所述第一词袋模型和每个所述第一分词的词频信息,将所述待分析文本与样本文本进行比较,得到所述待分析文本与所述样本文本的相似度比较结果。
在第一方面的一种可能的实施方式中,所述对待分析文本进行分句,得到由多个分句组成的分句集合的步骤之前,所述方法还包括:
对输入的初始文本进行指代消解,获得所述初始文本中的照应语和每个照应语对应的先行语;
将所述初始文本中每个照应语替换为该照应语对应的先行语,得到所述待分析文本。
在第一方面的一种可能的实施方式中,所述对每个所述分句进行句法分析,获得每个分句的句法结构元素集合的步骤,包括:
对每个所述分句中的主语、谓语和宾语进行分析,将分析获得的每个所述分句的主语元素、谓语元素和宾语元素构建为每个分句的句法结构元素集合。
在第一方面的一种可能的实施方式中,所述根据所述第一词袋模型和每个所述第一分词的词频信息,将所述待分析文本与样本文本进行比较,得到比较结果的步骤,包括:
将所述第一词袋模型中的每个分句的句法结构元素集合进行句子拼接,得到第一拼接句子;
基于所述每个分句的句法结构元素集合和每个所述第一分词的词频信息,计算所述第一拼接句子与所述样本文本对应的第一样本拼接句子之间的第一维度相似度、第二维度相似度以及第三维度相似度,其中,所述第一维度相似度为基于句法结构的维度相似度,所述第二维度相似度为基于近义词的相似度,所述第三维度相似度为基于字符串的相似度;
根据所述第一维度相似度、所述第二维度相似度以及所述第三维度相似度计算得到所述待分析文本与所述样本文本之间的第一相似度,作为所述比较结果。
在第一方面的一种可能的实施方式中,所述待分析文本与所述样本文本之间的第一相似度的计算公式如下:
Figure BDA0002863856600000031
其中,α1、α2、α3分别为所述第一维度相似度、所述第二维度相似度以及所述第三维度相似度各自对应的权重,1>α1>α2>α3>0;
word表示所述第一拼接句子和所述第一样本拼接句子对应的句法结构元素集合,i表示第一分词的编号,N为句法结构元素集合的个数,tfi值为该第一分词i的词频信息,sumword为所述第一拼接句子和所述第一样本拼接句子中所有句法结构元素集合中不进行去重的句法结构元素总数量;
synonmys_value为采用synonmys包得到所述第一拼接句子和所述第一样本拼接句子之间的相似度值;
join_sen1为所述第一拼接句子的字符集,join_sen2为所述第一样本拼接句子的字符集。
在第一方面的一种可能的实施方式中,所述方法还包括:
根据预设停用词字典剔除每个所述分句中的停用词,得到与每个所述分句对应的目标分句;
对每个所述目标分句进行分词,对分词结果中的重复分词进行去重得到第二分词结果,并根据所述第二分词结果构建所述待分析文本对应的第二词袋模型;
根据所述第二词袋模型、所述每个分句的句法结构元素集合和所述第二分词结果中每个第二分词的词频信息,将所述待分析文本与样本文本进行比较,得到比较结果。
在第一方面的一种可能的实施方式中,所述根据所述第二词袋模型、所述每个分句的句法结构元素集合和所述第二分词结果中每个第二分词的词频信息,将所述待分析文本与样本文本进行比较,得到比较结果的步骤,包括:
将所述第二词袋模型中的所有第二分词进行句子拼接,得到第二拼接句子;
基于所述每个分句的句法结构元素集合和所述每个第二分词的词频信息,计算所述第二拼接句子与所述样本文本对应的第二样本拼接句子之间的第一维度相似度、第二维度相似度以及第三维度相似度,其中,所述第一维度相似度为基于句法结构的维度相似度,所述第二维度相似度为基于近义词的相似度,所述第三维度相似度为基于字符串的相似度;
根据所述第一维度相似度、所述第二维度相似度以及所述第三维度相似度计算得到所述待分析文本与所述样本文本之间的第二相似度,作为所述比较结果。
在第一方面的一种可能的实施方式中,所述待分析文本与所述样本文本之间的第二相似度的计算公式如下:
Figure BDA0002863856600000041
其中,α1、α2、α3分别为所述第一维度相似度、所述第二维度相似度以及所述第三维度相似度各自对应的权重,1>α1>α2>α3>0;
word表示所述第二拼接句子和所述第二样本拼接句子对应的句法结构元素集合,i表示第二分词的编号,N为句法结构元素集合的个数,tfi值为该第二分词i的词频,sumword为所述第二拼接句子和所述第二样本拼接句子中所有句法结构元素集合中不进行去重的句法结构元素总数量;
synonmys_value为采用synonmys包得到所述第二拼接句子和所述第二样本拼接句子之间的相似度值;
join_sen1为所述第二拼接句子的字符集,join_sen2为所述第二样本拼接句子的字符集。
比如,在第一方面的一种可能的实施方式中,所述方法还包括:
根据所述待分析文本与所述样本文本的相似度比较结果,确定所述待分析文本匹配的目标样本文本,并确定所述目标样本文本预先对应的目标热点信息推送行为;
获取目标热点信息推送行为中当前信息推送节点和热点映射信息推送节点之间的推送热力图集,其中,所述推送热力图集包括目标热点信息推送行为中当前信息推送节点在目标热力单元内调用的多个目标推送热力图、所述目标热点信息推送行为中热点映射信息推送节点在所述目标热力单元内调用的多个热点映射推送热力图,以及各推送热力图的热力单元图谱;
利用与所述多个目标推送热力图对应的目标推送主题引用信息,及与所述多个热点映射推送热力图对应的热点映射推送主题引用信息构建推送主题引用信息,并根据所述推送主题引用信息获取主题服务热点标签信息,其中,所述目标推送主题引用信息用于表征按照所述热力单元图谱进行推送关联处理的所述多个目标推送热力图的关键推送主题源元素,所述热点映射推送主题引用信息用于表征按照所述热力单元图谱进行推送关联处理的所述多个热点映射推送热力图的推送热力图的关键推送主题源元素,所述主题服务热点标签信息用于表征所述目标推送主题引用信息及所述热点映射推送主题引用信息的热力分布关系;
利用所述推送热力图集中在目标热力单元段内被调用且按所述热力单元图谱的图谱结构的所述目标推送热力图与所述热点映射推送热力图构建推送进程配置例子集,并根据所述推送进程配置例子集获取推送事件信息,其中,所述推送事件信息用于表征所述推送进程配置例子集中至少两个映射推送热力图之间的热力分布关系;
根据所述主题服务热点标签信息与所述推送事件信息,获取所述当前信息推送节点与所述热点映射信息推送节点之间的推送情景参数,根据所述推送情景参数确定所述当前信息推送节点与所述热点映射信息推送节点之间的推送控制信息,并基于所述推送控制信息向所述当前信息推送节点与所述热点映射信息推送节点所对应的推送服务发送推送控制指令集。
根据本申请的第二方面,提供一种基于句法结构元素语义的文本分析装置,应用于计算终端,所述装置包括:
分句模块,用于对待分析文本进行分句,得到由多个分句组成的分句集合;
分析模块,用于对每个所述分句进行句法分析,获得每个分句的句法结构元素集合;
分词模块,用于对每个所述分句进行分词,计算包括多个第一分词的第一分词结果,并计算每个所述第一分词的词频信息;
构建模块,用于根据所述每个分句的句法结构元素集合构建所述待分析文本对应的第一词袋模型;
比较模块,用于根据所述第一词袋模型和每个所述第一分词的词频信息,将所述待分析文本与样本文本进行比较,得到所述待分析文本与所述样本文本的相似度比较结果。
根据本申请的第三方面,提供一种计算终端,包括机器可读存储介质和处理器,所述机器可读存储介质中存储有机器可执行指令,所述处理器被设置为运行所述机器可执行指令以执行第一方面或者第一方面的任意一种可能的实施方式所述的基于句法结构元素语义的文本分析方法。
根据本申请的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有机器可执行指令,所述机器可执行指令被计算机执行时实现第一方面或者第一方面的任意一种可能的实施方式所述的基于句法结构元素语义的文本分析方法。
基于上述任一方面,本申请通过对待分析文本的每个分句进行句法分析,抽取每个分句的句法结构元素集合用于实现待分析文本与样本文本的分析比较,充分考虑了每个分句的语义信息和结构信息,增加句法结构元素在待分析文本中所占的权重,可以提高对于短文本的相似度比较结果的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的基于句法结构元素语义的文本分析方法的流程示意图之一;
图2示出了本申请实施例所提供的基于句法结构元素语义的文本分析方法的流程示意图之二;
图3示出了图1中所示的步骤S150的子步骤流程示意图;
图4示出了本申请实施例所提供的基于句法结构元素语义的文本分析方法的流程示意图之三;
图5示出了图4中所示的步骤S180的子步骤流程示意图;
图6示出了本申请实施例所提供的基于句法结构元素语义的文本分析装置的功能模块示意图;
图7示出了本申请实施例所提供的用于执行上述基于句法结构元素语义的文本分析方法的计算终端的组件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。
应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
参照前述背景技术中所获知的技术问题,在相关技术中,目前在对长文本进行相似度比较的过程中,常用方法是基于Word2Vec将长文本词向量转换为表示大部分语义信息的文本向量进行相似度比较,可以取得较佳的技术效果。然而,对于短文本而言,在进行相似度比较的过程中,由于文本特征稀疏,抗噪能力弱,会造成相似度比较结果不准确的问题。并且,短文本本身字数较少,也会导致相似度比较过程中的复杂度增加,相应地,相似度比较效果也较差。
此外,在相关技术中还提出了基于LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)主题模型将待分析文本转换为主题向量后进行相似度比较的方法。然而经本申请发明人研究发现,该方法同样不适用于短文本的向量表示,会造成向量稀疏而难以进行向量间的计算的问题。
为此,基于上述技术问题的发现,发明人提出下述技术方案以解决上述问题。需要注意的是,以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果。因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是发明人在发明创造过程中对本申请做出的贡献,而不应当理解为本领域技术人员所公知的技术内容。
图1示出了本申请实施例提供的基于句法结构元素语义的文本分析方法的交互流程示意图。应当理解,在其它实施例中,本实施例的基于句法结构元素语义的文本分析方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该基于句法结构元素语义的文本分析方法的详细步骤介绍如下。
步骤S110,对待分析文本进行分句,得到由多个分句组成的分句集合。
例如,可以将待分析文本按照指定的标点符号进行分句,指定的标点符号可以包括,但不限于“。|?|!|\n|\t|\r\n”等标点符号,从而可以得到由多个分句组成的分句集合。例如分局集合以org表示如下:
org={sentence1,sentence2,...sentenceN}。其中,sentence1、sentence2、...sentenceN表示每个分句。
步骤S120,对每个分句进行句法分析,获得每个分句的句法结构元素集合。
例如,句法结构元素集合可以由多个句法结构元素组成,这些句法结构元素可以用于表征分句的核心语义信息和结构信息。
步骤S130,对每个分句进行分词,得到包括多个第一分词的第一分词结果,并计算每个第一分词的词频信息。
例如,对每个分句进行分词的过程,可以是将每个分句的连续的字序列按照一定的规范重新组合成词序列的过程。具体采用的分词算法可以包括,但不限于:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法,或者其它任意可以实施的分词方法,在此不作具体限定。
其中,词频(Term Frequency,TF)可以是指第一分词在该待分析文本中出现的次数。例如,每个第一分词的词频信息可以用于评估每一个第一分词对于该待分析文本的重复程度。
步骤S140,根据每个分句的句法结构元素集合构建待分析文本对应的第一词袋模型。
例如,第一词袋模型(Bag-of-words model)是指在自然语言处理和信息检索下被简化的表达模型,在词袋模型下,可以将每个分句的句法结构元素集合采用一个逻辑上的词袋进行表示。
步骤S150,根据第一词袋模型和每个第一分词的词频信息,将待分析文本与样本文本进行比较,得到待分析文本与样本文本的相似度比较结果。
基于上述步骤,本实施例通过对待分析文本的每个分句进行句法分析,抽取每个分句的句法结构元素集合,以用于待分析文本与样本文本进行分析比较。如此,充分考虑了每个分句的语义信息和结构信息,增加句法结构元素在待分析文本中所占的权重,可以提高对于短文本的相似度比较结果的准确性。
在一种可能的实施方式中,为了丰富文本语义信息和语法信息,提高后续相似度比较的准确性,请结合参阅图2,在步骤S110之前,还可以包括以下步骤S101-步骤S102,详细描述如下。
步骤S101,对输入的初始文本进行指代消解,获得初始文本中的照应语和每个照应语对应的先行语。
步骤S102,将初始文本中每个照应语替换为该照应语对应的先行语,得到待分析文本。
本实施例中,指代是指在语篇中用一个照应语回指某个之前提到过的语言单位,一般将指代语称为照应语,指代的对象或内容称为先行语。通常先行语可以在照应语之前,也可以在之后。例如,如果先行语可以在照应语之前,那么照应语与先行语之间的关系称为照应关系;如果先行语可以在照应语之后,则称为逆照应关系。
其中,照应语可以称作指代语,指代语的指代类型可以包括人称代词、指示代词等。例如,一种类型可以是第三人称代词,如:“他/她/它/他们/她们/它们”,具体可以细分为第三人称代词单数和第三人称代词复数。再例如,另一种类型还可以是“这”一类的指示代词,如:“这/这些/这里/这边/这样”。先行语可以是指照应语指代的对象或内容,例如“AAA是一名歌手,他的歌广受欢迎”,“他”可以理解为照应语,“AAA”可以理解为先行语。
本实施例中,指代消解就是确定照应语与先行语的对应关系,相同的照应语也可以指代不同的先行语,确定照应语的先行语的过程就是指代消解的过程。由此,通过对输入的初始文本进行指代消解,可以获得初始文本中的照应语和每个照应语对应的先行语,之后为了便于丰富文本的语义信息和语法信息,可以将初始文本中每个照应语替换为该照应语对应的先行语,得到前述的待分析文本,由此进行后续的相似度比较,可以提高相似度比较结果的准确性。
在一种可能的实施方式中,针对步骤S120,每个分句的句法结构元素集合中的句法结构元素可以是该分句对应的主语元素、谓语元素和宾语元素。基于此,可以对每个分句中的主语、谓语和宾语进行分析,将分析获得的每个分句的主语元素、谓语元素和宾语元素构建为每个分句的句法结构元素集合。
例如,每个分句的句法结构元素集合可以表示为sentences={{sentence1:(主语A1-谓语A1-宾语A1)},{sentence2:(主语A2-谓语A2-宾语A2)},...,{sentenceN:(主语AN-谓语AN-宾语AN)}}。
在一种可能的实施方式中,针对步骤S150,请结合参阅图3,可以通过以下子步骤S151-子步骤S153实现,详细描述如下。
子步骤S151,将第一词袋模型中的每个分句的句法结构元素集合进行句子拼接,得到第一拼接句子。
例如,可以将第一词袋模型中的每个分句所包含的主语元素、谓语元素和宾语元素所构成的词序列拼接成一句话,得到第一拼接句子join_senA。仍旧以前述示例为,第一拼接句子join_senA可以为{主语A1-谓语A1-宾语A1-主语A2-谓语A2-宾语A2...主语AN-谓语AN-宾语AN}。
同时,可以将样本文本按照上述相同的处理方式得到第一样本拼接句子join_senB,同样地,第一样本拼接句子join_senB可以为{主语B1-谓语B1-宾语B1-主语B2-谓语B2-宾语B2...主语BN-谓语BN-宾语BN}。
子步骤S152,基于每个分句的句法结构元素集合和每个第一分词的词频信息,计算第一拼接句子与样本文本对应的第一样本拼接句子之间的第一维度相似度、第二维度相似度以及第三维度相似度。
其中,第一维度相似度可以为基于句法结构的维度相似度,第二维度相似度可以为基于近义词的相似度,第三维度相似度可以为基于字符串的相似度。或者,在一些其它可能的实施方式中,第一维度相似度、第二维度相似度以及第三维度相似度也可以进行其它的替换或者组合。
子步骤S153,根据第一维度相似度、第二维度相似度以及第三维度相似度计算得到待分析文本与样本文本之间的第一相似度,作为比较结果。
例如,在一种可能的实施方式中,上述的待分析文本与样本文本之间的第一相似度的计算公式可以如下:
Figure BDA0002863856600000121
其中,α1、α2、α3分别为第一维度相似度、第二维度相似度以及第三维度相似度各自对应的权重,1>α1>α2>α3>0。此外,在一些可能的实施方式中,α1、α2、α3之和等于1。
word表示第一拼接句子和第一样本拼接句子对应的句法结构元素集合,i表示第一分词的编号,N为句法结构元素集合的个数,tfi值为该第一分词i的词频信息,sumword为第一拼接句子和第一样本拼接句子中所有句法结构元素集合中不进行去重的句法结构元素总数量。
synonmys_value为采用synonmys包得到第一拼接句子和第一样本拼接句子之间的相似度值。
join_sen1为第一拼接句子的字符集,join_sen2为第一样本拼接句子的字符集。
这样,本申请实施例在计算待分析文本与样本文本之间的第一相似度时,综合考虑了基于字符串、基于近义词以及基于句法结构的文本相似性计算,能够避免由于短文本的文本特征稀疏导致的相似度计算效果较差的问题。
此外,在另一种可能的实施方式中,为了获得更为精准的相似度比较结果,请进一步结合参阅图4,本申请实施例提供的基于句法结构元素语义的文本分析方法还可以包括以下步骤S160-步骤S180,详细描述如下。
步骤S160,根据预设停用词字典剔除每个分句中的停用词,得到与每个分句对应的目标分句。
步骤S170,对每个目标分句进行分词,对分词结果中的重复分词进行去重得到第二分词结果,并根据第二分词结果构建待分析文本对应的第二词袋模型。
步骤S180,根据第二词袋模型、每个分句的句法结构元素集合和第二分词结果中每个第二分词的词频信息,将待分析文本与样本文本进行比较,得到比较结果。
在一种可能的实施方式中,针对步骤S180,请结合参阅图5,可以通过以下示例性的子步骤S181-子步骤S183实现,详细描述如下。
子步骤S181,将第二词袋模型中的所有第二分词进行句子拼接,得到第二拼接句子。
例如,第二拼接句子join_senC可以为{分词A1分词A2分词A3......分词AN}。
同时,可以将样本文本按照上述相同的处理方式得到第二样本拼接句子join_senD,同样地,第一样本拼接句子join_senD可以为{分词B1分词B2分词B3......分词BN}。
子步骤S182,基于每个分句的句法结构元素集合和每个第二分词的词频信息,计算第二拼接句子与样本文本对应的第二样本拼接句子之间的第一维度相似度、第二维度相似度以及第三维度相似度。
其中,第一维度相似度为基于句法结构的维度相似度,第二维度相似度为基于近义词的相似度,第三维度相似度为基于字符串的相似度。
子步骤S183,根据第一维度相似度、第二维度相似度以及第三维度相似度计算得到待分析文本与样本文本之间的第二相似度,作为比较结果。
在一种可能的实施方式中,上述的待分析文本与样本文本之间的第二相似度的计算公式可以如下:
Figure BDA0002863856600000141
其中,α1、α2、α3分别为第一维度相似度、第二维度相似度以及第三维度相似度各自对应的权重,1>α1>α2>α3>0。此外,在一些可能的实施方式中,α1、α2、α3之和等于1。
word表示第二拼接句子和第二样本拼接句子对应的句法结构元素集合,i表示第二分词的编号,N为句法结构元素集合的个数,tfi值为该第二分词i的词频,sumword为第二拼接句子和第二样本拼接句子中所有句法结构元素集合中不进行去重的句法结构元素总数量。
synonmys_value为采用synonmys包得到第二拼接句子和第二样本拼接句子之间的相似度值。
join_sen1为第二拼接句子的字符集,join_sen2为第二样本拼接句子的字符集。
如此,采用上述设计,通过对剔除停用词并且进行分词去重之后的第二分词结果构建第二词袋集合,基于第二词袋集合进行相似度比较,可以更为全面地比较待分析文本和样本文本之间的相似度,获得更为精准的相似度比较结果。
仅作为一种设计,在一种可能的实施方式中,以上方法还可以包括以下信息推送服务的步骤:
1)根据待分析文本与样本文本的相似度比较结果,确定待分析文本匹配的目标样本文本,并确定目标样本文本预先对应的目标热点信息推送行为。
2)获取目标热点信息推送行为中当前信息推送节点和热点映射信息推送节点之间的推送热力图集,其中,推送热力图集包括目标热点信息推送行为中当前信息推送节点在目标热力单元内调用的多个目标推送热力图、目标热点信息推送行为中热点映射信息推送节点在目标热力单元内调用的多个热点映射推送热力图,以及各推送热力图的热力单元图谱。
3)利用与多个目标推送热力图对应的目标推送主题引用信息,及与多个热点映射推送热力图对应的热点映射推送主题引用信息构建推送主题引用信息,并根据推送主题引用信息获取主题服务热点标签信息,其中,目标推送主题引用信息用于表征按照热力单元图谱进行推送关联处理的多个目标推送热力图的关键推送主题源元素,热点映射推送主题引用信息用于表征按照热力单元图谱进行推送关联处理的多个热点映射推送热力图的推送热力图的关键推送主题源元素,主题服务热点标签信息用于表征目标推送主题引用信息及热点映射推送主题引用信息的热力分布关系。
4)利用推送热力图集中在目标热力单元段内被调用且按热力单元图谱的图谱结构的目标推送热力图与热点映射推送热力图构建推送进程配置例子集,并根据推送进程配置例子集获取推送事件信息,其中,推送事件信息用于表征推送进程配置例子集中至少两个映射推送热力图之间的热力分布关系。
5)根据主题服务热点标签信息与推送事件信息,获取当前信息推送节点与热点映射信息推送节点之间的推送情景参数,根据推送情景参数确定当前信息推送节点与热点映射信息推送节点之间的推送控制信息,并基于推送控制信息向当前信息推送节点与热点映射信息推送节点所对应的推送服务发送推送控制指令集。
基于同一发明构思,请参阅图6,示出了本申请实施例提供的基于句法结构元素语义的文本分析装置110的功能模块示意图,本实施例可以根据上述计算终端100执行的方法实施例对基于句法结构元素语义的文本分析装置110进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。比如,在采用对应各个功能划分各个功能模块的情况下,图6示出的基于句法结构元素语义的文本分析装置110只是一种装置示意图。其中,基于句法结构元素语义的文本分析装置110可以包括分句模块111、分析模块112、分词模块113、构建模块114以及比较模块115,下面分别对该基于句法结构元素语义的文本分析装置110的各个功能模块的功能进行详细阐述。
分句模块111,用于对待分析文本进行分句,得到由多个分句组成的分句集合。可以理解,该分句模块111可以用于执行上述步骤S110,关于该分句模块111的详细实现方式可以参照上述对步骤S110有关的内容。
分析模块112,用于对每个分句进行句法分析,获得每个分句的句法结构元素集合。可以理解,该分析模块112可以用于执行上述步骤S120,关于该分析模块112的详细实现方式可以参照上述对步骤S120有关的内容。
分词模块113,用于对每个分句进行分词,得到包括多个第一分词的第一分词结果,并计算每个第一分词的词频信息。可以理解,该分词模块113可以用于执行上述步骤S130,关于该分词模块113的详细实现方式可以参照上述对步骤S130有关的内容。
构建模块114,用于根据每个分句的句法结构元素集合构建待分析文本对应的第一词袋模型。可以理解,该构建模块114可以用于执行上述步骤S140,关于该构建模块114的详细实现方式可以参照上述对步骤S140有关的内容。
比较模块115,用于根据第一词袋模型和每个第一分词的词频信息,将待分析文本与样本文本进行比较,得到待分析文本与样本文本的相似度比较结果。可以理解,该比较模块115可以用于执行上述步骤S150,关于该比较模块115的详细实现方式可以参照上述对步骤S150有关的内容。
在一种可能的实施方式中,该基于句法结构元素语义的文本分析装置110还可以包括指代消解模块,具体用于:
对输入的初始文本进行指代消解,获得初始文本中的照应语和每个照应语对应的先行语;
将初始文本中每个照应语替换为该照应语对应的先行语,得到待分析文本。
在一种可能的实施方式中,分析模块112具体可以用于:
对每个分句中的主语、谓语和宾语进行分析,将分析获得的每个分句的主语元素、谓语元素和宾语元素构建为每个分句的句法结构元素集合。
在一种可能的实施方式中,比较模块115具体可以用于:
将第一词袋模型中的每个分句的句法结构元素集合进行句子拼接,得到第一拼接句子;
基于每个分句的句法结构元素集合和每个第一分词的词频信息,计算第一拼接句子与样本文本对应的第一样本拼接句子之间的第一维度相似度、第二维度相似度以及第三维度相似度,其中,第一维度相似度为基于句法结构的维度相似度,第二维度相似度为基于近义词的相似度,第三维度相似度为基于字符串的相似度;
根据第一维度相似度、第二维度相似度以及第三维度相似度计算得到待分析文本与样本文本之间的第一相似度,作为比较结果。
在一种可能的实施方式中,待分析文本与样本文本之间的第一相似度的计算公式如下:
Figure BDA0002863856600000181
其中,α1、α2、α3分别为第一维度相似度、第二维度相似度以及第三维度相似度各自对应的权重,1>α1>α2>α3>0;
word表示第一拼接句子和第一样本拼接句子对应的句法结构元素集合,i表示第一分词的编号,N为句法结构元素集合的个数,tfi值为该第一分词i的词频信息,sumword为第一拼接句子和第一样本拼接句子中所有句法结构元素集合中不进行去重的句法结构元素总数量;
synonmys_value为采用synonmys包得到第一拼接句子和第一样本拼接句子之间的相似度值;
join_sen1为第一拼接句子的字符集,join_sen2为第一样本拼接句子的字符集。
在一种可能的实施方式中,比较模块115具体还可以用于:
根据预设停用词字典剔除每个分句中的停用词,得到与每个分句对应的目标分句;
对每个目标分句进行分词,对分词结果中的重复分词进行去重得到第二分词结果,并根据第二分词结果构建待分析文本对应的第二词袋模型;
根据第二词袋模型、每个分句的句法结构元素集合和第二分词结果中每个第二分词的词频信息,将待分析文本与样本文本进行比较,得到比较结果。
在一种可能的实施方式中,比较模块115具体还可以用于:
将第二词袋模型中的所有第二分词进行句子拼接,得到第二拼接句子;
基于每个分句的句法结构元素集合和每个第二分词的词频信息,计算第二拼接句子与样本文本对应的第二样本拼接句子之间的第一维度相似度、第二维度相似度以及第三维度相似度,其中,第一维度相似度为基于句法结构的维度相似度,第二维度相似度为基于近义词的相似度,第三维度相似度为基于字符串的相似度;
根据第一维度相似度、第二维度相似度以及第三维度相似度计算得到待分析文本与样本文本之间的第二相似度,作为比较结果。
在一种可能的实施方式中,待分析文本与样本文本之间的第二相似度的计算公式如下:
Figure BDA0002863856600000191
其中,α1、α2、α3分别为第一维度相似度、第二维度相似度以及第三维度相似度各自对应的权重,1>α1>α2>α3>0;
word表示第二拼接句子和第二样本拼接句子对应的句法结构元素集合,i表示第二分词的编号,N为句法结构元素集合的个数,tfi值为该第二分词i的词频,sumword为第二拼接句子和第二样本拼接句子中所有句法结构元素集合中不进行去重的句法结构元素总数量;
synonmys_value为采用synonmys包得到第二拼接句子和第二样本拼接句子之间的相似度值;
join_sen1为第二拼接句子的字符集,join_sen2为第二样本拼接句子的字符集。
基于同一发明构思,请参阅图7,示出了本申请实施例提供的用于执行上述基于句法结构元素语义的文本分析方法的计算终端100的结构示意框图,该计算终端100可以包括基于句法结构元素语义的文本分析装置110、机器可读存储介质120和处理器130。
本实施例中,机器可读存储介质120与处理器130均位于计算终端100中且二者分离设置。然而,应当理解的是,机器可读存储介质120也可以是独立于计算终端100之外,且可以由处理器130通过总线接口来访问。可替换地,机器可读存储介质120也可以集成到处理器130中,例如,可以是高速缓存和/或通用寄存器。
基于句法结构元素语义的文本分析装置110可以包括存储在机器可读存储介质120的软件功能模块(例如图6中所示的分句模块111、分析模块112、分词模块113、构建模块114以及比较模块115),当处理器130执行基于句法结构元素语义的文本分析装置110中的软件功能模块时,以实现前述方法实施例提供的基于句法结构元素语义的文本分析方法。
由于本申请实施例提供的计算终端100是上述计算终端100执行的方法实施例的另一种实现形式,且计算终端100可用于执行上述方法实施例提供的基于句法结构元素语义的文本分析方法,因此其所能获得的技术效果可参考上述方法实施例,在此不再赘述。
以上所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围,而仅仅是表示本申请的选定实施例。因此,本申请的保护范围应以权利要求的保护范围为准。此外,基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例,都应属于本申请保护的范围。

Claims (10)

1.一种基于句法结构元素语义的文本分析方法,其特征在于,应用于计算终端,所述方法包括:
对待分析文本进行分句,得到由多个分句组成的分句集合;
对每个所述分句进行句法分析,获得每个分句的句法结构元素集合;
对每个所述分句进行分词,得到包括多个第一分词的第一分词结果,并计算每个所述第一分词的词频信息;
根据所述每个分句的句法结构元素集合构建所述待分析文本对应的第一词袋模型;
根据所述第一词袋模型和每个所述第一分词的词频信息,将所述待分析文本与样本文本进行比较,得到所述待分析文本与所述样本文本的相似度比较结果。
2.根据权利要求1所述的基于句法结构元素语义的文本分析方法,其特征在于,所述对待分析文本进行分句,得到由多个分句组成的分句集合的步骤之前,所述方法还包括:
对输入的初始文本进行指代消解,获得所述初始文本中的照应语和每个照应语对应的先行语;
将所述初始文本中每个照应语替换为该照应语对应的先行语,得到所述待分析文本。
3.根据权利要求1所述的基于句法结构元素语义的文本分析方法,其特征在于,所述对每个所述分句进行句法分析,获得每个分句的句法结构元素集合的步骤,包括:
对每个所述分句中的主语、谓语和宾语进行分析,将分析获得的每个所述分句的主语元素、谓语元素和宾语元素构建为每个分句的句法结构元素集合。
4.根据权利要求1-3中任意一项所述的基于句法结构元素语义的文本分析方法,其特征在于,所述根据所述第一词袋模型和每个所述第一分词的词频信息,将所述待分析文本与样本文本进行比较,得到比较结果的步骤,包括:
将所述第一词袋模型中的每个分句的句法结构元素集合进行句子拼接,得到第一拼接句子;
基于所述每个分句的句法结构元素集合和每个所述第一分词的词频信息,计算所述第一拼接句子与所述样本文本对应的第一样本拼接句子之间的第一维度相似度、第二维度相似度以及第三维度相似度,其中,所述第一维度相似度为基于句法结构的维度相似度,所述第二维度相似度为基于近义词的相似度,所述第三维度相似度为基于字符串的相似度;
根据所述第一维度相似度、所述第二维度相似度以及所述第三维度相似度计算得到所述待分析文本与所述样本文本之间的第一相似度,作为所述比较结果。
5.根据权利要求4所述的基于句法结构元素语义的文本分析方法,其特征在于,所述待分析文本与所述样本文本之间的第一相似度的计算公式如下:
Figure FDA0002863856590000021
其中,α1、α2、α3分别为所述第一维度相似度、所述第二维度相似度以及所述第三维度相似度各自对应的权重,1>α1>α2>α3>0;
word表示所述第一拼接句子和所述第一样本拼接句子对应的句法结构元素集合,i表示第一分词的编号,N为句法结构元素集合的个数,tfi值为该第一分词i的词频信息,sumword为所述第一拼接句子和所述第一样本拼接句子中所有句法结构元素集合中不进行去重的句法结构元素总数量;
synonmys_value为采用synonmys包得到所述第一拼接句子和所述第一样本拼接句子之间的相似度值;
join_sen1为所述第一拼接句子的字符集,join_sen2为所述第一样本拼接句子的字符集。
6.根据权利要求1-3中任意一项所述的基于句法结构元素语义的文本分析方法,其特征在于,所述方法还包括:
根据预设停用词字典剔除每个所述分句中的停用词,得到与每个所述分句对应的目标分句;
对每个所述目标分句进行分词,对分词结果中的重复分词进行去重得到第二分词结果,并根据所述第二分词结果构建所述待分析文本对应的第二词袋模型;
根据所述第二词袋模型、所述每个分句的句法结构元素集合和所述第二分词结果中每个第二分词的词频信息,将所述待分析文本与样本文本进行比较,得到比较结果。
7.根据权利要求6所述的基于句法结构元素语义的文本分析方法,其特征在于,所述根据所述第二词袋模型、所述每个分句的句法结构元素集合和所述第二分词结果中每个第二分词的词频信息,将所述待分析文本与样本文本进行比较,得到比较结果的步骤,包括:
将所述第二词袋模型中的所有第二分词进行句子拼接,得到第二拼接句子;
基于所述每个分句的句法结构元素集合和所述每个第二分词的词频信息,计算所述第二拼接句子与所述样本文本对应的第二样本拼接句子之间的第一维度相似度、第二维度相似度以及第三维度相似度,其中,所述第一维度相似度为基于句法结构的维度相似度,所述第二维度相似度为基于近义词的相似度,所述第三维度相似度为基于字符串的相似度;
根据所述第一维度相似度、所述第二维度相似度以及所述第三维度相似度计算得到所述待分析文本与所述样本文本之间的第二相似度,作为所述比较结果。
8.根据权利要求7所述的基于句法结构元素语义的文本分析方法,其特征在于,所述待分析文本与所述样本文本之间的第二相似度的计算公式如下:
Figure FDA0002863856590000041
其中,α1、α2、α3分别为所述第一维度相似度、所述第二维度相似度以及所述第三维度相似度各自对应的权重,1>α1>α2>α3>0;
word表示所述第二拼接句子和所述第二样本拼接句子对应的句法结构元素集合,i表示第二分词的编号,N为句法结构元素集合的个数,tfi值为该第二分词i的词频,sumword为所述第二拼接句子和所述第二样本拼接句子中所有句法结构元素集合中不进行去重的句法结构元素总数量;
synonmys_value为采用synonmys包得到所述第二拼接句子和所述第二样本拼接句子之间的相似度值;
join_sen1为所述第二拼接句子的字符集,join_sen2为所述第二样本拼接句子的字符集。
9.一种基于句法结构元素语义的文本分析装置,其特征在于,应用于计算终端,所述装置包括:
分句模块,用于对待分析文本进行分句,得到由多个分句组成的分句集合;
分析模块,用于对每个所述分句进行句法分析,获得每个分句的句法结构元素集合;
分词模块,用于对每个所述分句进行分词,计算包括多个第一分词的第一分词结果,并计算每个所述第一分词的词频信息;
构建模块,用于根据所述每个分句的句法结构元素集合构建所述待分析文本对应的第一词袋模型;
比较模块,用于根据所述第一词袋模型和每个所述第一分词的词频信息,将所述待分析文本与样本文本进行比较,得到所述待分析文本与所述样本文本的相似度比较结果。
10.一种计算终端,其特征在于,包括机器可读存储介质和处理器,所述机器可读存储介质中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-8中任意一项所述的基于句法结构元素语义的文本分析方法。
CN202011575935.4A 2020-12-28 2020-12-28 基于句法结构元素语义的文本分析方法、装置及计算终端 Active CN112650836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011575935.4A CN112650836B (zh) 2020-12-28 2020-12-28 基于句法结构元素语义的文本分析方法、装置及计算终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011575935.4A CN112650836B (zh) 2020-12-28 2020-12-28 基于句法结构元素语义的文本分析方法、装置及计算终端

Publications (2)

Publication Number Publication Date
CN112650836A true CN112650836A (zh) 2021-04-13
CN112650836B CN112650836B (zh) 2022-11-18

Family

ID=75363238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011575935.4A Active CN112650836B (zh) 2020-12-28 2020-12-28 基于句法结构元素语义的文本分析方法、装置及计算终端

Country Status (1)

Country Link
CN (1) CN112650836B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742029A (zh) * 2022-04-20 2022-07-12 中国传媒大学 一种汉语文本比对方法、存储介质及设备
CN117194614A (zh) * 2023-11-02 2023-12-08 北京中电普华信息技术有限公司 一种文本差异识别方法、装置和计算机可读介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823794A (zh) * 2014-02-25 2014-05-28 浙江大学 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
CN106227897A (zh) * 2016-08-31 2016-12-14 青海民族大学 一种基于藏文句子级别的藏文论文复制检测方法及系统
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN108536665A (zh) * 2017-03-02 2018-09-14 腾讯科技(深圳)有限公司 一种确定语句一致性的方法及装置
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN109858028A (zh) * 2019-01-30 2019-06-07 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
CN109947858A (zh) * 2017-07-26 2019-06-28 腾讯科技(深圳)有限公司 一种数据处理的方法及装置
CN110110744A (zh) * 2019-03-27 2019-08-09 平安国际智慧城市科技股份有限公司 基于语义理解的文本配对方法、装置及计算机设备
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN111813927A (zh) * 2019-04-12 2020-10-23 普天信息技术有限公司 一种基于主题模型和lstm的句子相似度计算方法
US20200394364A1 (en) * 2019-02-21 2020-12-17 Ramaswamy Venkateshwaran Method and system of creating and summarizing unstructured natural language sentence clusters for efficient tagging

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823794A (zh) * 2014-02-25 2014-05-28 浙江大学 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
CN106227897A (zh) * 2016-08-31 2016-12-14 青海民族大学 一种基于藏文句子级别的藏文论文复制检测方法及系统
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN108536665A (zh) * 2017-03-02 2018-09-14 腾讯科技(深圳)有限公司 一种确定语句一致性的方法及装置
CN109947858A (zh) * 2017-07-26 2019-06-28 腾讯科技(深圳)有限公司 一种数据处理的方法及装置
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN109858028A (zh) * 2019-01-30 2019-06-07 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
US20200394364A1 (en) * 2019-02-21 2020-12-17 Ramaswamy Venkateshwaran Method and system of creating and summarizing unstructured natural language sentence clusters for efficient tagging
CN110110744A (zh) * 2019-03-27 2019-08-09 平安国际智慧城市科技股份有限公司 基于语义理解的文本配对方法、装置及计算机设备
CN111813927A (zh) * 2019-04-12 2020-10-23 普天信息技术有限公司 一种基于主题模型和lstm的句子相似度计算方法
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DONGYANG YAN ET AL.: "Network-Based Bag-of-Words Model for Text Classification", 《IEEE ACCESS》 *
MACIEJ PIASECKI ET AL.: "Similarity Measure for Polish Short Texts Based on Wordnet-Enhanced Bag-of-words Representation", 《LANGUAGE AND TECHNOLOGY CONFERENCE》 *
陈国: "用户短文本相关技术方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
马智勤 等: "基于分布式ElasticSearch相似内容比对算法研究", 《计算机与数字工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742029A (zh) * 2022-04-20 2022-07-12 中国传媒大学 一种汉语文本比对方法、存储介质及设备
CN117194614A (zh) * 2023-11-02 2023-12-08 北京中电普华信息技术有限公司 一种文本差异识别方法、装置和计算机可读介质
CN117194614B (zh) * 2023-11-02 2024-01-30 北京中电普华信息技术有限公司 一种文本差异识别方法、装置和计算机可读介质

Also Published As

Publication number Publication date
CN112650836B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
US10296584B2 (en) Semantic textual analysis
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Kristianto et al. Extracting textual descriptions of mathematical expressions in scientific papers
CN111626042B (zh) 指代消解方法及装置
CN112650836B (zh) 基于句法结构元素语义的文本分析方法、装置及计算终端
JP2011118689A (ja) 検索方法及びシステム
CN109271524A (zh) 知识库问答系统中的实体链接方法
KR101396131B1 (ko) 패턴 기반 관계 유사도 측정 장치 및 방법
CN112733547A (zh) 一种利用语义依存分析的中文问句语义理解方法
Hussein A plagiarism detection system for arabic documents
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
Song et al. Improving embedding-based unsupervised keyphrase extraction by incorporating structural information
CN113901783A (zh) 面向领域的文档查重方法及系统
JP2004070636A (ja) 概念検索装置
KR20160086255A (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
Rofiq Indonesian news extractive text summarization using latent semantic analysis
Mathew et al. Paraphrase identification of Malayalam sentences-an experience
Nishy Reshmi et al. Textual entailment classification using syntactic structures and semantic relations
Qasim et al. Exploiting affinity propagation for automatic acquisition of domain concept in ontology learning
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
Gomez et al. CICBUAPnlp: graph-based approach for answer selection in community question answering task
CN111259159A (zh) 数据挖掘方法、装置和计算机可读存储介质
KR102685135B1 (ko) 영상 편집 자동화 시스템
Li et al. Sentence similarity measurement based on shallow parsing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant