CN117010409A - 一种基于自然语言语义分析的文本识别方法及系统 - Google Patents
一种基于自然语言语义分析的文本识别方法及系统 Download PDFInfo
- Publication number
- CN117010409A CN117010409A CN202311283761.8A CN202311283761A CN117010409A CN 117010409 A CN117010409 A CN 117010409A CN 202311283761 A CN202311283761 A CN 202311283761A CN 117010409 A CN117010409 A CN 117010409A
- Authority
- CN
- China
- Prior art keywords
- topological
- dimension
- text
- character
- topology
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 26
- 239000002131 composite material Substances 0.000 claims description 74
- 230000008451 emotion Effects 0.000 claims description 56
- 238000013139 quantization Methods 0.000 claims description 14
- 238000011002 quantification Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 150000001875 compounds Chemical class 0.000 claims description 11
- 230000002996 emotional effect Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 5
- 235000015076 Shorea robusta Nutrition 0.000 claims description 4
- 244000166071 Shorea robusta Species 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于自然语言语义分析的文本识别方法及系统,包括以下步骤:根据第一文本字符,通过语义中心标定模型,得到第一文本中的第一中心文本字符;根据第一文本中的所述第一中心文本字符,通过自然语言语义匹配关系,得到第一中心文本字符的自然语言语义;根据第一中心文本字符的自然语言语义,通过自然语言语义处理中的文本生成方式,得到第一文本对应的自然语言语义文本。本发明通过语义中心标定模型基于拓扑学对第一文本字符分析,实现关键性语义信息的标定,对关键性语义信息对应的所述第一中心文本字符,通过自然语言语义匹配关系,得到第一中心文本字符的自然语言语义,提高文本识别效率。
Description
技术领域
本发明涉及文本语义分析技术领域,具体涉及一种基于自然语言语义分析的文本识别方法及系统。
背景技术
语义识别指的是一种自然语言处理技术,主要实现的是在计算机中模拟人类语言理解效果。它能够有效识别出每句话中所包含的意义,深入了解语句与句子中的内容,分析用户的真实意图。借助于自然语言处理技术及机器学习,这一技术能够根据用户的自然输入,从句子中解析出语法、字符等,实现更有可读性、更精准的文本理解。
现有技术中利用自然语言语义进行文本分析过程中对文本字符进行逐一识别,以保证文本识别的全面性,但是如此对所有文本字符进行语义识别,在大数据量或实时识别场景中,存在着对掌握文本语义无影响的字符,此类文本字符的语义识别只会占用信道、存储空间和运算器的硬件资源,造成文本识别效率的降低。
发明内容
本发明的目的在于提供一种基于自然语言语义分析的文本识别方法,以解决现有技术中存在着对掌握文本语义无影响的字符,此类文本字符的语义识别只会占用信道、存储空间和运算器的硬件资源,造成文本识别效率的降低的技术问题。
为解决上述技术问题,本发明具体提供下述技术方案:
一种基于自然语言语义分析的文本识别方法,包括以下步骤:
获取第一文本,所述第一文本包括多个第一文本字符;
根据第一文本字符,通过语义中心标定模型,得到第一文本中的第一中心文本字符,其中,所述第一中心文本字符对应于第一文本中的关键型语义信息,所述语义中心标定模型基于拓扑学对第一文本字符分析,实现关键性语义信息的标定;
根据第一文本中的所述第一中心文本字符,通过自然语言语义匹配关系,得到第一中心文本字符的自然语言语义,所述自然语言语义匹配关系为神经网络,或所述自然语言语义匹配关系为语义信息与自然语言语义的对应关系;
根据第一中心文本字符的自然语言语义,通过自然语言语义处理中的文本生成方式,得到第一文本对应的自然语言语义文本。
作为本发明的一种优选方案,语义中心标定模型标定出第一中心文本字符,包括:
对第一文本中的各个第一文本字符依据主题、内容和见解三个维度进行拓扑结构搭建,得到字符拓扑复合型结构,所述字符拓扑复合型结构包括主题维度、内容维度和见解维度的拓扑复合型结构;
对字符拓扑复合型结构进行拓扑属性量化,并依据拓扑属性进行内容维度的拓扑节点重要度量化;
根据内容维度的拓扑节点的重要度在字符拓扑复合型结构中标定出关键型拓扑节点,将关键型拓扑节点对应的第一文本字符作为第一中心文本字符。
作为本发明的一种优选方案,所述字符拓扑复合型结构的构建包括:
以第一文本字符的主题为主题维度的拓扑节点,在具有同一主题的第一文本字符间设置主题维度的拓扑边,利用主题维度的拓扑边对主题维度的拓扑节点进行连接得到主题维度的拓扑结构;
以第一文本字符为内容维度的拓扑节点,在具有同一第一文本字符的主题维度的拓扑节点和内容维度的拓扑节点间设置主题维度连接至内容维度的拓扑边,利用主题维度连接至内容维度的拓扑边对主题维度的拓扑节点与内容维度的拓扑节点进行连接得到主题维度与内容维度的拓扑复合型结构;
以第一文本字符的情感极性作为见解维度的拓扑节点,在具有相同情感极性的内容维度的拓扑节点和见解维度的拓扑节点间设置内容维度连接至见解维度的拓扑边,利用内容维度连接至见解维度的拓扑边对内容维度的拓扑节点与见解维度的拓扑节点进行连接得到主题维度、内容维度和见解维度的拓扑复合型结构;
将主题维度、内容维度和见解维度的拓扑复合型结构作为字符拓扑复合型结构。
作为本发明的一种优选方案,所述对字符拓扑复合型结构进行拓扑属性量化,包括:
在字符拓扑复合型结构中利用KL距离对主题维度的拓扑边影响力进行量化,所述主题维度的拓扑边影响力的量化公式为:
;
式中,,/>为主题维度的第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,ri和rj分别为主题维度的第i个拓扑节点和第j个拓扑节点,KL(P,Q)为ri对应的所有第一文本字符与rj对应的所有第一文本字符间的KL距离,Pk为第k个第一文本字符在ri中出现的概率,Qk为第k个第一文本字符在rj中出现的概率,m为第一文本字符的总数量,k,i,j均为计数变量;
在字符拓扑复合型结构中利用情感极性的情感强度对见解维度的拓扑边影响力进行量化,所述见解维度的拓扑边影响力的量化公式为:
;
式中,为见解维度中第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,ei和ej分别为见解维度中第i个拓扑节点和第j个拓扑节点,/>为符号函数,其中,当/>,则/>,当/>,则;EPi为ei的情感极性,EDi为ei的情感极性的情感强度,EPj为ej的情感极性,EDj为ej的情感极性的情感强度,i,j为计数变量;
在字符拓扑复合型结构中利用节点连接关系对内容维度的拓扑边影响力进行量化,所述内容维度的拓扑边影响力的量化公式为:
;
式中,为内容维度中连接第i个拓扑节点的拓扑边的影响力,R(ci)为内容维度的第i个拓扑节点的影响广度,D(ci)为内容维度的第i个拓扑节点的影响深度,ci为内容维度的第i个拓扑节点,/>,/>,Mr(ci)为连接ci的拓扑边数量,A(ci)为与ci具有拓扑边连接关系的主题维度的拓扑节点数量,N为字符拓扑复合型结构中拓扑边总数量,Nr为主题维度中拓扑节点总数量,i为计数变量。
作为本发明的一种优选方案,依据拓扑属性进行内容维度的拓扑节点重要度的量化,包括:
基于主题维度的拓扑边影响力、见解维度的拓扑边影响力和内容维度的拓扑边影响力,得到拓扑边排序公式;
所述拓扑边排序公式为:
;
式中,为字符拓扑复合型结构中第i个拓扑边的排序值,/>为字符拓扑复合型结构中第j个拓扑边的排序值,Ej为字符拓扑复合型结构中第i个拓扑边,为字符拓扑复合型结构中Ej的连接度,/>为内容维度中连接第i个拓扑节点的拓扑边的影响力,/>为见解维度中第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,/>为主题维度的第i个拓扑节点和第j个拓扑节点间拓扑边的影响力;
将拓扑边排序公式应用于内容维度,得到内容维度的拓扑节点的重要度公式,所述内容维度的拓扑节点的重要度公式为:
;
式中,为内容维度中第i个拓扑节点的重要度,ci为内容维度的第i个拓扑节点,/>为字符拓扑复合型结构中连接ci的拓扑边,/>为/>的排序值总和,为/>的连接度,i,j为计数变量。
作为本发明的一种优选方案,根据内容维度的拓扑节点重要度在字符拓扑复合型结构中标定出关键型拓扑节点,包括:
将内容维度的拓扑节点的重要度与重要度阈值比较,其中,
若内容维度的拓扑节点的重要度高于或等于重要度阈值,则将内容维度的拓扑节点标定为关键型拓扑节点;
若内容维度的拓扑节点的重要度低于重要度阈值,则将内容维度的拓扑节点标定为非关键型拓扑节点。
作为本发明的一种优选方案,所述第一文本字符的情感极性和情感极性的情感强度,包括:利用中文情感词汇本体库对第一文本字符进行情感极性标注,累计第一文本字符的情感强度作为情感极性的情感强度。
作为本发明的一种优选方案,所述自然语言语义匹配关系为神经网络,神经网络的输入项为第一中心文本字符,输出项为第一中心文本字符的自然语言语义。
作为本发明的一种优选方案,本发明提供了一种应用基于自然语言语义分析的文本识别方法的文本识别系统,包括:
初始化模块,用于对第一文本进行字符切割,得到多个第一文本字符;
字符处理模块,存储语义中心标定模型,用于根据第一文本字符,通过语义中心标定模型,得到第一文本中的第一中心文本字符;
自然语义识别模块,存储有自然语言语义匹配关系,用于根据第一文本中的所述第一中心文本字符,通过自然语言语义匹配关系,得到第一中心文本字符的自然语言语义;
语义文本生成模块,存储有自然语言语义处理中的文本生成方式,用于根据第一中心文本字符的自然语言语义,通过自然语言语义处理中的文本生成方式,得到第一文本对应的自然语言语义文本。
作为本发明的一种优选方案,所述第一中心文本字符对应于第一文本中的关键型语义信息,所述语义中心标定模型基于拓扑学对第一文本字符分析,实现关键性语义信息的标定;
所述自然语言语义匹配关系为神经网络,或所述自然语言语义匹配关系为语义信息与自然语言语义的对应关系。
本发明与现有技术相比较具有如下有益效果:
本发明通过语义中心标定模型基于拓扑学对第一文本字符分析,实现关键性语义信息的标定,对关键性语义信息对应的所述第一中心文本字符,通过自然语言语义匹配关系,得到第一中心文本字符的自然语言语义,只对掌握文本语义有影响的字符进行语义识别,占用信道、存储空间和运算器的硬件资源减少,提高文本识别效率。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的文本识别方法流程图;
图2为本发明实施例提供的文本识别系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中利用自然语言语义进行文本分析过程中对文本字符进行逐一识别,以保证文本识别的全面性,但是如此对所有文本字符进行语义识别,在大数据量或实时识别场景中,存在着对掌握文本语义无影响的字符,此类文本字符的语义识别只会占用信道、存储空间和运算器的硬件资源,造成文本识别效率的降低。因此本发明提供一种基于自然语言语义分析的文本识别方法,利用语义中心标定模型,基于拓扑学对第一文本字符分析,实现关键性语义信息的标定,对关键语义信息的识别,实现了只对掌握文本语义有影响的字符进行语义识别,占用信道、存储空间和运算器的硬件资源减少,提高文本识别效率。
如图1所示,本发明提供了一种基于自然语言语义分析的文本识别方法,包括以下步骤:
获取第一文本,第一文本包括多个第一文本字符;
根据第一文本字符,通过语义中心标定模型,得到第一文本中的第一中心文本字符,其中,第一中心文本字符对应于第一文本中的关键型语义信息,语义中心标定模型基于拓扑学对第一文本字符分析,实现关键性语义信息的标定;
根据第一文本中的第一中心文本字符,通过自然语言语义匹配关系,得到第一中心文本字符的自然语言语义,自然语言语义匹配关系为神经网络,或自然语言语义匹配关系为语义信息与自然语言语义的对应关系;
根据第一中心文本字符的自然语言语义,通过自然语言语义处理中的文本生成方式,得到第一文本对应的自然语言语义文本。
本发明为了能够提高文本自然语言语义的识别效率,对文本中的文本字符进行有效筛选,即选出对文本语义识别有影响的关键型语义信息(第一中心文本字符),在文本自然语言语义中仅对第一中心文本字符进行自然语言语义识别,能够保证文本自然语言语义识别的准确性,同时避免对掌握文本语义无影响的字符的语义识别,减轻对信道、存储空间和运算器的硬件资源的占用,提高文本语义的识别效率。
本发明为了提高文本字符筛选的准确性,基于主题、内容和见解三个维度字符筛选,主题、内容和见解三个维度体现了文本意图的形成和演化过程,即主题、内容和见解为文本意图的三方面要素,而文本语义识别主要是对文本字符中含有的意图进行识别,生成可读性、更精准的文本理解,因此从主题、内容和见解三个维度上确定文本中表征关键型语义信息的文本字符,使得筛选出的第一中心文本字符与文本意图存在关联性,保证了需要识别的文本中与文本意图存在关联性的文本字符得以被筛选出,使得文本意图在后续的自然语言语义识别中更全面、更准确的得到体现,从而保证了文本识别的准确性。
语义中心标定模型标定出第一中心文本字符,包括:
对第一文本中的各个第一文本字符依据主题、内容和见解三个维度进行拓扑结构搭建,得到字符拓扑复合型结构,字符拓扑复合型结构包括主题维度、内容维度和见解维度的拓扑复合型结构;
对字符拓扑复合型结构进行拓扑属性量化,并依据拓扑属性进行内容维度的拓扑节点重要度量化;
根据内容维度的拓扑节点的重要度在字符拓扑复合型结构中标定出关键型拓扑节点,将关键型拓扑节点对应的第一文本字符作为第一中心文本字符。
字符拓扑复合型结构的构建包括:
以第一文本字符的主题为主题维度的拓扑节点,在具有同一主题的第一文本字符间设置主题维度的拓扑边,利用主题维度的拓扑边对主题维度的拓扑节点进行连接得到主题维度的拓扑结构;
以第一文本字符为内容维度的拓扑节点,在具有同一第一文本字符的主题维度的拓扑节点和内容维度的拓扑节点间设置主题维度连接至内容维度的拓扑边,利用主题维度连接至内容维度的拓扑边对主题维度的拓扑节点与内容维度的拓扑节点进行连接得到主题维度与内容维度的拓扑复合型结构;
以第一文本字符的情感极性作为见解维度的拓扑节点,在具有相同情感极性的内容维度的拓扑节点和见解维度的拓扑节点间设置内容维度连接至见解维度的拓扑边,利用内容维度连接至见解维度的拓扑边对内容维度的拓扑节点与见解维度的拓扑节点进行连接得到主题维度、内容维度和见解维度的拓扑复合型结构;
将主题维度、内容维度和见解维度的拓扑复合型结构作为字符拓扑复合型结构。
本发明利用拓扑属性对文本字符进行重要度评价,其中,拓扑属性包括主题维度的拓扑边影响力、见解维度的拓扑边影响力和内容维度的拓扑边影响力,主题维度的拓扑边影响力、见解维度的拓扑边影响力和内容维度的拓扑边影响力在拓扑属性上分别为主题维度的拓扑节点相似度、见解维度的拓扑节点一致性和内容维度的拓扑节点影响度,在主题维度层面,利用文本字符对应的拓扑节点间相似性对文本字符对应的拓扑节点间的拓扑边进行影响力的主题维度内分析,在见解维度层面,利用文本字符对应的拓扑节点间一致性对文本字符对应的拓扑节点间拓扑边进行影响力的见解维度内分析,以及内容维度层面,利用文本字符对应的拓扑节点对主题维度的拓扑节点和见解维度的拓扑节点的影响属性,实现对文本字符对应的拓扑节点间拓扑边进行影响力的维度间分析,由于主题维度的拓扑节点相似度、见解维度的拓扑节点一致性和内容维度的拓扑节点影响度均是对拓扑节点的属性量化,即利用主体维度、见解维度和内容维度的拓扑节点的拓扑属性转换衡量拓扑边的拓扑拓扑属性,因此,利用主体维度、见解维度和内容维度的拓扑节点的拓扑属性,实现将文本字符对应的单一拓扑节点影响力计算转化为包含文本字符的所有拓扑边影响力,实现多维度分析。
本发明实现与传统节点排序方法对文本字符对应的单一拓扑节点排序不同,对复合拓扑结构的拓扑边进行排序,将文本字符对应的单一拓扑节点影响力计算转化为包含文本字符的所有拓扑边影响力,从而实现多维信息的综合考虑,得到文本字符对应的单一拓扑节点影响力结果,或可称为文本字符对应的单一拓扑节点的重要度,多维信息的综合考虑提高了第一中心文本字符的筛选准确性,最终提高了利用第一中心文本字符进行语义识别而获得的第一文本对应的自然语言语义文本的识别准确性。
对字符拓扑复合型结构进行拓扑属性量化,包括:
在字符拓扑复合型结构中利用KL距离对主题维度的拓扑边影响力进行量化,主题维度的拓扑边影响力的量化公式为:
;
式中,,/>为主题维度的第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,ri和rj分别为主题维度的第i个拓扑节点和第j个拓扑节点,KL(P,Q)为ri对应的所有第一文本字符与rj对应的所有第一文本字符间的KL距离,Pk为第k个第一文本字符在ri中出现的概率,Qk为第k个第一文本字符在rj中出现的概率,m为第一文本字符的总数量,k,i,j均为计数变量;
在字符拓扑复合型结构中利用情感极性的情感强度对见解维度的拓扑边影响力进行量化,见解维度的拓扑边影响力的量化公式为:
;
式中,为见解维度中第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,ei和ej分别为见解维度中第i个拓扑节点和第j个拓扑节点,/>为符号函数,其中,当/>,则/>,当/>,则;EPi为ei的情感极性,EDi为ei的情感极性的情感强度,EPj为ej的情感极性,EDj为ej的情感极性的情感强度,i,j为计数变量;
在字符拓扑复合型结构中利用节点连接关系对内容维度的拓扑边影响力进行量化,内容维度的拓扑边影响力的量化公式为:
;
式中,为内容维度中连接第i个拓扑节点的拓扑边的影响力,R(ci)为内容维度的第i个拓扑节点的影响广度,D(ci)为内容维度的第i个拓扑节点的影响深度,ci为内容维度的第i个拓扑节点,/>,/>,Mr(ci)为连接ci的拓扑边数量,A(ci)为与ci具有拓扑边连接关系的主题维度的拓扑节点数量,N为字符拓扑复合型结构中拓扑边总数量,Nr为主题维度中拓扑节点总数量,i为计数变量。
依据拓扑属性进行内容维度的拓扑节点重要度的量化,包括:
基于主题维度的拓扑边影响力、见解维度的拓扑边影响力和内容维度的拓扑边影响力,得到拓扑边排序公式;
拓扑边排序公式为:
;
式中,为字符拓扑复合型结构中第i个拓扑边的排序值,/>为字符拓扑复合型结构中第j个拓扑边的排序值,Ej为字符拓扑复合型结构中第i个拓扑边,为字符拓扑复合型结构中Ej的连接度,/>为内容维度中连接第i个拓扑节点的拓扑边的影响力,/>为见解维度中第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,/>为主题维度的第i个拓扑节点和第j个拓扑节点间拓扑边的影响力;
将拓扑边排序公式应用于内容维度,得到内容维度的拓扑节点的重要度公式,内容维度的拓扑节点的重要度公式为:
;
式中,为内容维度中第i个拓扑节点的重要度,ci为内容维度的第i个拓扑节点,/>为字符拓扑复合型结构中连接ci的拓扑边,/>为/>的排序值总和,为/>的连接度,i,j为计数变量。
根据内容维度的拓扑节点重要度在字符拓扑复合型结构中标定出关键型拓扑节点,包括:
将内容维度的拓扑节点的重要度与重要度阈值比较,其中,
若内容维度的拓扑节点的重要度高于或等于重要度阈值,则将内容维度的拓扑节点标定为关键型拓扑节点;
若内容维度的拓扑节点的重要度低于重要度阈值,则将内容维度的拓扑节点标定为非关键型拓扑节点。
第一文本字符的情感极性和情感极性的情感强度,包括:利用中文情感词汇本体库对第一文本字符进行情感极性标注,累计第一文本字符的情感强度作为情感极性的情感强度。
自然语言语义匹配关系为神经网络,神经网络的输入项为第一中心文本字符,输出项为第一中心文本字符的自然语言语义。
如图2所示,本发明提供了一种应用基于自然语言语义分析的文本识别方法的文本识别系统,包括:
初始化模块,用于对第一文本进行字符切割,得到多个第一文本字符;
字符处理模块,存储语义中心标定模型,用于根据第一文本字符,通过语义中心标定模型,得到第一文本中的第一中心文本字符;
自然语义识别模块,存储有自然语言语义匹配关系,用于根据第一文本中的第一中心文本字符,通过自然语言语义匹配关系,得到第一中心文本字符的自然语言语义;
语义文本生成模块,存储有自然语言语义处理中的文本生成方式,用于根据第一中心文本字符的自然语言语义,通过自然语言语义处理中的文本生成方式(NLP或NLG中的文本生成方法,或其他同功能方法),得到第一文本对应的自然语言语义文本。
第一中心文本字符对应于第一文本中的关键型语义信息,语义中心标定模型基于拓扑学对第一文本字符分析,实现关键性语义信息的标定;
自然语言语义匹配关系为神经网络,或自然语言语义匹配关系为语义信息与自然语言语义的对应关系。
本发明通过语义中心标定模型基于拓扑学对第一文本字符分析,实现关键性语义信息的标定,对关键性语义信息对应的第一中心文本字符,通过自然语言语义匹配关系,得到第一中心文本字符的自然语言语义,只对掌握文本语义有影响的字符进行语义识别,占用信道、存储空间和运算器的硬件资源减少,提高文本识别效率。
字符处理模块利用语义中心标定模型标定出第一中心文本字符,包括:
对第一文本中的各个第一文本字符依据主题、内容和见解三个维度进行拓扑结构搭建,得到字符拓扑复合型结构,字符拓扑复合型结构包括主题维度、内容维度和见解维度的拓扑复合型结构;
对字符拓扑复合型结构进行拓扑属性量化,并依据拓扑属性进行内容维度的拓扑节点重要度量化;
根据内容维度的拓扑节点的重要度在字符拓扑复合型结构中标定出关键型拓扑节点,将关键型拓扑节点对应的第一文本字符作为第一中心文本字符。
具体的,字符处理模块构建字符拓扑复合型结构,包括:
字符处理模块以第一文本字符的主题为主题维度的拓扑节点,在具有同一主题的第一文本字符间设置主题维度的拓扑边,利用主题维度的拓扑边对主题维度的拓扑节点进行连接得到主题维度的拓扑结构;
字符处理模块以第一文本字符为内容维度的拓扑节点,在具有同一第一文本字符的主题维度的拓扑节点和内容维度的拓扑节点间设置主题维度连接至内容维度的拓扑边,利用主题维度连接至内容维度的拓扑边对主题维度的拓扑节点与内容维度的拓扑节点进行连接得到主题维度与内容维度的拓扑复合型结构;
字符处理模块以第一文本字符的情感极性作为见解维度的拓扑节点,在具有相同情感极性的内容维度的拓扑节点和见解维度的拓扑节点间设置内容维度连接至见解维度的拓扑边,利用内容维度连接至见解维度的拓扑边对内容维度的拓扑节点与见解维度的拓扑节点进行连接得到主题维度、内容维度和见解维度的拓扑复合型结构;
字符处理模块将主题维度、内容维度和见解维度的拓扑复合型结构作为字符拓扑复合型结构。
字符处理模块字符处理模块存储有主题维度的拓扑边影响力的量化公式,见解维度的拓扑边影响力的量化公式和内容维度的拓扑边影响力的量化公式,字符处理模块利用主题维度的拓扑边影响力的量化公式,见解维度的拓扑边影响力的量化公式和内容维度的拓扑边影响力的量化公式对字符拓扑复合型结构进行拓扑属性量化,具体的:
字符处理模块在字符拓扑复合型结构中利用KL距离对主题维度的拓扑边影响力进行量化,主题维度的拓扑边影响力的量化公式为:
;
式中,,/>为主题维度的第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,ri和rj分别为主题维度的第i个拓扑节点和第j个拓扑节点,KL(P,Q)为ri对应的所有第一文本字符与rj对应的所有第一文本字符间的KL距离,Pk为第k个第一文本字符在ri中出现的概率,Qk为第k个第一文本字符在rj中出现的概率,m为第一文本字符的总数量,k,i,j均为计数变量;
字符处理模块在字符拓扑复合型结构中利用情感极性的情感强度对见解维度的拓扑边影响力进行量化,见解维度的拓扑边影响力的量化公式为:
;
式中,为见解维度中第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,ei和ej分别为见解维度中第i个拓扑节点和第j个拓扑节点,/>为符号函数,其中,当/>,则/>,当/>,则;EPi为ei的情感极性,EDi为ei的情感极性的情感强度,EPj为ej的情感极性,EDj为ej的情感极性的情感强度,i,j为计数变量;
字符处理模块在字符拓扑复合型结构中利用节点连接关系对内容维度的拓扑边影响力进行量化,内容维度的拓扑边影响力的量化公式为:
;
式中,为内容维度中连接第i个拓扑节点的拓扑边的影响力,R(ci)为内容维度的第i个拓扑节点的影响广度,D(ci)为内容维度的第i个拓扑节点的影响深度,ci为内容维度的第i个拓扑节点,/>,/>,Mr(ci)为连接ci的拓扑边数量,A(ci)为与ci具有拓扑边连接关系的主题维度的拓扑节点数量,N为字符拓扑复合型结构中拓扑边总数量,Nr为主题维度中拓扑节点总数量,i为计数变量。
字符处理模块依据拓扑属性进行内容维度的拓扑节点重要度的量化,包括:
字符处理模块基于主题维度的拓扑边影响力、见解维度的拓扑边影响力和内容维度的拓扑边影响力,得到拓扑边排序公式;
拓扑边排序公式为:
;
式中,为字符拓扑复合型结构中第i个拓扑边的排序值,/>为字符拓扑复合型结构中第j个拓扑边的排序值,Ej为字符拓扑复合型结构中第i个拓扑边,为字符拓扑复合型结构中Ej的连接度,/>为内容维度中连接第i个拓扑节点的拓扑边的影响力,/>为见解维度中第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,/>为主题维度的第i个拓扑节点和第j个拓扑节点间拓扑边的影响力;
字符处理模块将拓扑边排序公式应用于内容维度,得到内容维度的拓扑节点的重要度公式,内容维度的拓扑节点的重要度公式为:
;
式中,为内容维度中第i个拓扑节点的重要度,ci为内容维度的第i个拓扑节点,/>为字符拓扑复合型结构中连接ci的拓扑边,/>为/>的排序值总和,为/>的连接度,i,j为计数变量。
字符处理模块根据内容维度的拓扑节点重要度在字符拓扑复合型结构中标定出关键型拓扑节点,具体的:
将内容维度的拓扑节点的重要度与重要度阈值比较,其中,
若内容维度的拓扑节点的重要度高于或等于重要度阈值,则将内容维度的拓扑节点标定为关键型拓扑节点;
若内容维度的拓扑节点的重要度低于重要度阈值,则将内容维度的拓扑节点标定为非关键型拓扑节点。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (10)
1.一种基于自然语言语义分析的文本识别方法,其特征在于:包括以下步骤:
获取第一文本,所述第一文本包括多个第一文本字符;
根据第一文本字符,通过语义中心标定模型,得到第一文本中的第一中心文本字符,其中,所述第一中心文本字符对应于第一文本中的关键型语义信息,所述语义中心标定模型基于拓扑学对第一文本字符分析,实现关键性语义信息的标定;
根据第一文本中的所述第一中心文本字符,通过自然语言语义匹配关系,得到第一中心文本字符的自然语言语义,所述自然语言语义匹配关系为神经网络,或所述自然语言语义匹配关系为语义信息与自然语言语义的对应关系;
根据第一中心文本字符的自然语言语义,通过自然语言语义处理中的文本生成方式,得到第一文本对应的自然语言语义文本。
2.根据权利要求1所述的一种基于自然语言语义分析的文本识别方法,其特征在于:语义中心标定模型标定出第一中心文本字符,包括:
对第一文本中的各个第一文本字符依据主题、内容和见解三个维度进行拓扑结构搭建,得到字符拓扑复合型结构,所述字符拓扑复合型结构包括主题维度、内容维度和见解维度的拓扑复合型结构;
对字符拓扑复合型结构进行拓扑属性量化,并依据拓扑属性进行内容维度的拓扑节点重要度量化;
根据内容维度的拓扑节点的重要度在字符拓扑复合型结构中标定出关键型拓扑节点,将关键型拓扑节点对应的第一文本字符作为第一中心文本字符。
3.根据权利要求2所述的一种基于自然语言语义分析的文本识别方法,其特征在于:所述字符拓扑复合型结构的构建包括:
以第一文本字符的主题为主题维度的拓扑节点,在具有同一主题的第一文本字符间设置主题维度的拓扑边,利用主题维度的拓扑边对主题维度的拓扑节点进行连接得到主题维度的拓扑结构;
以第一文本字符为内容维度的拓扑节点,在具有同一第一文本字符的主题维度的拓扑节点和内容维度的拓扑节点间设置主题维度连接至内容维度的拓扑边,利用主题维度连接至内容维度的拓扑边对主题维度的拓扑节点与内容维度的拓扑节点进行连接得到主题维度与内容维度的拓扑复合型结构;
以第一文本字符的情感极性作为见解维度的拓扑节点,在具有相同情感极性的内容维度的拓扑节点和见解维度的拓扑节点间设置内容维度连接至见解维度的拓扑边,利用内容维度连接至见解维度的拓扑边对内容维度的拓扑节点与见解维度的拓扑节点进行连接得到主题维度、内容维度和见解维度的拓扑复合型结构;
将主题维度、内容维度和见解维度的拓扑复合型结构作为字符拓扑复合型结构。
4.根据权利要求3所述的一种基于自然语言语义分析的文本识别方法,其特征在于:所述对字符拓扑复合型结构进行拓扑属性量化,包括:
在字符拓扑复合型结构中利用KL距离对主题维度的拓扑边影响力进行量化,所述主题维度的拓扑边影响力的量化公式为:
;
式中,,/>为主题维度的第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,ri和rj分别为主题维度的第i个拓扑节点和第j个拓扑节点,KL(P,Q)为ri对应的所有第一文本字符与rj对应的所有第一文本字符间的KL距离,Pk为第k个第一文本字符在ri中出现的概率,Qk为第k个第一文本字符在rj中出现的概率,m为第一文本字符的总数量,k,i,j均为计数变量;
在字符拓扑复合型结构中利用情感极性的情感强度对见解维度的拓扑边影响力进行量化,所述见解维度的拓扑边影响力的量化公式为:
;
式中,为见解维度中第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,ei和ej分别为见解维度中第i个拓扑节点和第j个拓扑节点,/>为符号函数,其中,当/>,则/>,当/>,则;EPi为ei的情感极性,EDi为ei的情感极性的情感强度,EPj为ej的情感极性,EDj为ej的情感极性的情感强度,i,j为计数变量;
在字符拓扑复合型结构中利用节点连接关系对内容维度的拓扑边影响力进行量化,所述内容维度的拓扑边影响力的量化公式为:
;
式中,为内容维度中连接第i个拓扑节点的拓扑边的影响力,R(ci)为内容维度的第i个拓扑节点的影响广度,D(ci)为内容维度的第i个拓扑节点的影响深度,ci为内容维度的第i个拓扑节点,/>,/>,Mr (ci)为连接ci的拓扑边数量,A(ci)为与ci具有拓扑边连接关系的主题维度的拓扑节点数量,N为字符拓扑复合型结构中拓扑边总数量,Nr为主题维度中拓扑节点总数量,i为计数变量。
5.根据权利要求4所述的一种基于自然语言语义分析的文本识别方法,其特征在于:依据拓扑属性进行内容维度的拓扑节点重要度的量化,包括:
基于主题维度的拓扑边影响力、见解维度的拓扑边影响力和内容维度的拓扑边影响力,得到拓扑边排序公式;
所述拓扑边排序公式为:
;
式中,为字符拓扑复合型结构中第i个拓扑边的排序值,/>为字符拓扑复合型结构中第j个拓扑边的排序值,Ej为字符拓扑复合型结构中第i个拓扑边,/>为字符拓扑复合型结构中Ej的连接度,/>为内容维度中连接第i个拓扑节点的拓扑边的影响力,/>为见解维度中第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,为主题维度的第i个拓扑节点和第j个拓扑节点间拓扑边的影响力;
将拓扑边排序公式应用于内容维度,得到内容维度的拓扑节点的重要度公式,所述内容维度的拓扑节点的重要度公式为:
;
式中,为内容维度中第i个拓扑节点的重要度,ci为内容维度的第i个拓扑节点,/>为字符拓扑复合型结构中连接ci的拓扑边,/>为/>的排序值总和, 为/>的连接度,i,j为计数变量。
6.根据权利要求5所述的一种基于自然语言语义分析的文本识别方法,其特征在于:根据内容维度的拓扑节点重要度在字符拓扑复合型结构中标定出关键型拓扑节点,包括:
将内容维度的拓扑节点的重要度与重要度阈值比较,其中,
若内容维度的拓扑节点的重要度高于或等于重要度阈值,则将内容维度的拓扑节点标定为关键型拓扑节点;
若内容维度的拓扑节点的重要度低于重要度阈值,则将内容维度的拓扑节点标定为非关键型拓扑节点。
7.根据权利要求4所述的一种基于自然语言语义分析的文本识别方法,其特征在于:所述第一文本字符的情感极性和情感极性的情感强度,包括:利用中文情感词汇本体库对第一文本字符进行情感极性标注,累计第一文本字符的情感强度作为情感极性的情感强度。
8.根据权利要求1所述的一种基于自然语言语义分析的文本识别方法,其特征在于:所述自然语言语义匹配关系为神经网络,神经网络的输入项为第一中心文本字符,输出项为第一中心文本字符的自然语言语义。
9.一种应用权利要求1-8任一项所述的基于自然语言语义分析的文本识别方法的文本识别系统,其特征在于,包括:
初始化模块,用于对第一文本进行字符切割,得到多个第一文本字符;
字符处理模块,存储语义中心标定模型,用于根据第一文本字符,通过语义中心标定模型,得到第一文本中的第一中心文本字符;
自然语义识别模块,存储有自然语言语义匹配关系,用于根据第一文本中的所述第一中心文本字符,通过自然语言语义匹配关系,得到第一中心文本字符的自然语言语义;
语义文本生成模块,存储有自然语言语义处理中的文本生成方式,用于根据第一中心文本字符的自然语言语义,通过自然语言语义处理中的文本生成方式,得到第一文本对应的自然语言语义文本。
10.根据权利要求9所述的文本识别系统,其特征在于,所述第一中心文本字符对应于第一文本中的关键型语义信息,所述语义中心标定模型基于拓扑学对第一文本字符分析,实现关键性语义信息的标定;
所述自然语言语义匹配关系为神经网络,或所述自然语言语义匹配关系为语义信息与自然语言语义的对应关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311283761.8A CN117010409B (zh) | 2023-10-07 | 2023-10-07 | 一种基于自然语言语义分析的文本识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311283761.8A CN117010409B (zh) | 2023-10-07 | 2023-10-07 | 一种基于自然语言语义分析的文本识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117010409A true CN117010409A (zh) | 2023-11-07 |
CN117010409B CN117010409B (zh) | 2023-12-12 |
Family
ID=88569475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311283761.8A Active CN117010409B (zh) | 2023-10-07 | 2023-10-07 | 一种基于自然语言语义分析的文本识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117010409B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003203969A1 (en) * | 1997-07-02 | 2003-06-12 | Ekko Dane Production A/S | Radar plant and measurement technique for determination of the orientation and the depth of buried objects |
CN106598944A (zh) * | 2016-11-25 | 2017-04-26 | 中国民航大学 | 一种民航安保舆情情感分析方法 |
CN110413992A (zh) * | 2019-06-26 | 2019-11-05 | 重庆兆光科技股份有限公司 | 一种语义分析识别方法、系统、介质和设备 |
CN110851491A (zh) * | 2019-10-17 | 2020-02-28 | 天津大学 | 基于多重邻居节点的多重语义影响的网络链接预测方法 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN113870437A (zh) * | 2021-09-26 | 2021-12-31 | 瑞测(江苏)空间信息技术有限公司 | 一种数字孪生bim模型转换与轻量化方法及装置 |
CN114254653A (zh) * | 2021-12-23 | 2022-03-29 | 深圳供电局有限公司 | 一种科技项目文本语义抽取与表示分析方法 |
US20230297398A1 (en) * | 2022-01-21 | 2023-09-21 | Elemental Cognition Inc. | Interactive research assistant |
-
2023
- 2023-10-07 CN CN202311283761.8A patent/CN117010409B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003203969A1 (en) * | 1997-07-02 | 2003-06-12 | Ekko Dane Production A/S | Radar plant and measurement technique for determination of the orientation and the depth of buried objects |
CN106598944A (zh) * | 2016-11-25 | 2017-04-26 | 中国民航大学 | 一种民航安保舆情情感分析方法 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN110413992A (zh) * | 2019-06-26 | 2019-11-05 | 重庆兆光科技股份有限公司 | 一种语义分析识别方法、系统、介质和设备 |
CN110851491A (zh) * | 2019-10-17 | 2020-02-28 | 天津大学 | 基于多重邻居节点的多重语义影响的网络链接预测方法 |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN113870437A (zh) * | 2021-09-26 | 2021-12-31 | 瑞测(江苏)空间信息技术有限公司 | 一种数字孪生bim模型转换与轻量化方法及装置 |
CN114254653A (zh) * | 2021-12-23 | 2022-03-29 | 深圳供电局有限公司 | 一种科技项目文本语义抽取与表示分析方法 |
US20230297398A1 (en) * | 2022-01-21 | 2023-09-21 | Elemental Cognition Inc. | Interactive research assistant |
Non-Patent Citations (5)
Title |
---|
MEZZADRA SANDRO 等: "Between inclusion and exclusion: On the topology of global space and borders", 《THEORY, CULTURE & SOCIETY》, vol. 29, no. 4, pages 58 - 75 * |
ZHANG QIHUA 等: "Multi-task fusion via reinforcement learning for long-term user satisfaction in recommender systems", 《PROCEEDINGS OF THE 28TH ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》, pages 4510 - 4520 * |
吴迪: "基于信息融合的文本主题分析算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 07, pages 138 - 1483 * |
戴立武: "基于深度神经网络的中文情感分析研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 01, pages 138 - 2569 * |
曹玖新 等: "基于多维特征分析的社交网络意见领袖挖掘", 《电子学报》, no. 04, pages 898 - 905 * |
Also Published As
Publication number | Publication date |
---|---|
CN117010409B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN107122416B (zh) | 一种中文事件抽取方法 | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
WO2018218708A1 (zh) | 一种基于深度学习的舆情热点类别划分方法 | |
WO2018184518A1 (zh) | 微博数据处理方法、装置、计算机设备及存储介质 | |
CN110427609B (zh) | 一种写人作文篇章结构合理性自动评测方法 | |
CN104156349B (zh) | 基于统计词典模型的未登录词发现和分词系统及方法 | |
CN110781681B (zh) | 一种基于翻译模型的初等数学应用题自动求解方法及系统 | |
CN107301164B (zh) | 数学公式的语义解析方法及装置 | |
CN111597356B (zh) | 智能化教育知识图谱构建系统与方法 | |
CN112883193A (zh) | 一种文本分类模型的训练方法、装置、设备以及可读介质 | |
CN113792153B (zh) | 问答推荐方法及其装置 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
WO2021174829A1 (zh) | 众包任务的抽检方法、装置、计算机设备及存储介质 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN113793197A (zh) | 一种基于知识图谱语义融合的会话推荐系统 | |
CN111242131B (zh) | 一种智能阅卷中图像识别的方法、存储介质及装置 | |
CN117010409B (zh) | 一种基于自然语言语义分析的文本识别方法及系统 | |
CN111984790A (zh) | 一种实体关系抽取方法 | |
CN117422074A (zh) | 一种临床信息文本标准化的方法、装置、设备及介质 | |
CN108229565A (zh) | 一种基于认知的图像理解方法 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN116644148A (zh) | 关键词识别方法、装置、电子设备及存储介质 | |
CN116244277A (zh) | 一种nlp识别与知识库构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |