CN113591488A - 一种语义分析方法及装置 - Google Patents
一种语义分析方法及装置 Download PDFInfo
- Publication number
- CN113591488A CN113591488A CN202110889985.8A CN202110889985A CN113591488A CN 113591488 A CN113591488 A CN 113591488A CN 202110889985 A CN202110889985 A CN 202110889985A CN 113591488 A CN113591488 A CN 113591488A
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- semantic
- information
- word
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种语义分析方法及装置,其中,本发明的语义分析方法包括:S1:获取具有语义的文本信息;S2:对所述文本信息进行多种不同的分词方法分词操作,获得多种分词标签,若多种分词方法中的某一分词方法中的某一分词相对应的分词标签在所述某一分词方法之外的其他分词方法出现的次数大于第一预设数量,将所述某一分词和所述分词标签作为关键字字典元素保存至关键字字典中;S3:统计所述关键字字典元素在语义信息的单句中的次数,提取所述关键字字典元素出现的次数大于第二预设数量的单句作为语义摘要信息;以及S4:基于所述语义信息的单句的相似性度量,对语义信息的单句进行排序作为相似语义信息推荐顺序。
Description
技术领域
本发明涉及一种自然语言处理技术领域,特别涉及一种语义分析方法及装置。
背景技术
语言、文字蕴含复杂逻辑信息,是一种抽象的信息表示形式,作为人类进化过程中的重要产物和宝贵财富,对其的分析处理具有极高的理论意义和实用价值。自然语言处理技术的发展使得人们利用计算机对语音、文本、包含文字的图像等信息进行快速实时的语义分析识别处理成为可能。
诸如科大讯飞、腾讯、阿里巴巴、百度、Apple、谷歌等科技型企业相继推出了较为成熟的基于单字、简单词语的语音识别或翻译系统;同时基于图像的文字、文本识别如车牌识别等技术实现了语言、文字的形式化识别和表示;随着近年来人工智能、深度学习技术的长足进步,基于语音、文本的分词分割、识别、转换等方法、技术发展迅速,应用广泛,为语义识别与分析这一重要的人工智能方向提供了更深层次的技术支持,同时也提出了更高的要求。
目前自然语言识别方法或框架的基本思路是基于语言习惯或字典信息首先对语句或文本中的词语进行细化分割得到分词,而后通过分词可能的词性进行分词词性标注,再确定已获得分词中重要词性的词频、出现位置等信息,最后根据上述词语细节信息获得较好的语言或文本的语义信息,如关键字、摘要等。尽管如此,由于语言、文本等语义信息的多变性和不唯一性以及分词词性转化,精确的分词分割、词性标注仍然是自然语言识别中的重要问题,也是限制语义识别、语义理解等研究的一大瓶颈;同时,不同分词方法的分词词性和分词策略往往会有显著差异(如表1和表2),即使相同语义信息的词性分析也会有所不同。
表1.Jieba中文分词paddle模式词性标签表
标签 | 含义 | 标签 | 含义 | 标签 | 含义 | 标签 | 含义 |
n | 普通名词 | f | 方位名词 | s | 处所名词 | t | 时间 |
nr | 人名 | ns | 地名 | nt | 机构名 | nw | 作品名 |
nz | 其他专名 | v | 普通动词 | vd | 动副词 | vn | 名动词 |
a | 形容词 | ad | 副形词 | an | 名形词 | d | 副词 |
m | 数量词 | q | 量词 | r | 代词 | p | 介词 |
c | 连词 | u | 助词 | xc | 其他虚词 | w | 标点符号 |
PER | 人名 | LOC | 地名 | ORG | 机构名 | TIME | 时间 |
表2.PKU中文分词词性标签表
标签 | 含义 | 标签 | 含义 | 标签 | 含义 | 标签 | 含义 | 标签 | 含义 |
Ag | 形语素 | e | 叹词 | Ng | 名语素 | q | 量词 | vd | 副动词 |
a | 形容词 | f | 方位词 | n | 名词 | Rg | 代语素 | vn | 名动词 |
ad | 副形词 | h | 前接成分 | nr | 人名 | r | 代词 | w | 标点符号 |
an | 名形词 | i | 成语 | ns | 地名 | s | 处所词 | x | 非语素字 |
Bg | 区别语素 | j | 简称略语 | nt | 机构团体 | Tg | 时语素 | Yg | 语气语素 |
b | 区别词 | k | 后接成分 | nx | 外文字符 | t | 时间词 | y | 语气词 |
c | 连词 | l | 习用语 | nz | 其他专名 | u | 助词 | z | 状态词 |
Dg | 副语素 | Mg | 数语素 | o | 拟声词 | Vg | 动语素 | ||
d | 副词 | m | 数词 | p | 介词 | v | 动词 |
为解决现用技术问题的上述缺陷,有必要提出一种语义分析方法及装置。
发明内容
有鉴于此,本发明提出了一种语义分析方法及装置,本发明的语义分析方法实现了基于分词词性纠错和词频分析的语义信息量化排序分析,可用于文本关键词提取、基于词频的分句提取、分句相似性计算、消息推荐等。
为实现上述目的,本发明的第一方面提出了一种语义分析方法,其中,所述语义分析方法包括:
S1:获取具有语义的文本信息;
S2:对所述文本信息进行多种不同的分词方法分词操作,获得多种分词标签,若多种分词方法中的某一分词方法中的某一分词相对应的分词标签在所述某一分词方法之外的其他分词方法出现的次数大于第一预设数量,将所述某一分词和所述分词标签作为关键字字典元素保存至关键字字典中;
S3:统计所述关键字字典元素在语义信息的单句中的次数,提取所述关键字字典元素出现的次数大于第二预设数量的单句作为语义摘要信息;以及
S4:基于所述语义信息的单句的相似性度量,对语义信息的单句进行排序作为相似语义信息推荐顺序。
如上所述的语义分析方法,其中,在步骤S1中,所述文本信息包括:从网页或文本中获取的文本信息、利用光学字符识别提取的图像中的文本信息、和/或利用语音识别技术转化获得的文本信息。
如上所述的语义分析方法,其中,比较所述多种分词方法所使用词性标签,并按词性标签重复性降序排列所述多种分词方法,并从所述词性标签中选择第三预设数量的共同的标签标记,初始化关键字字典。
如上所述的语义分析方法,其中,在步骤S2中,若多种分词方法中的某一分词方法中的某一分词相对应的分词标签在所述某一分词方法之外的其他分词方法出现的次数在所述第一预设数量和小于所述第一预设数量的第四预设数量之间时,对所述分词进行扩展,并且若扩展后的分词在所述某一分词方法之外的其他分词方法出现的次数大于所述第一预设数量,将所述扩展后的分词及其相对应的分词标签作为关键字字典元素保存至关键字字典中。
如上所述的语义分析方法,其中,在步骤S3中,根据预设符号将所述语义信息分割成单句,所述预设符号包括句号、问号以及感叹号中的一种或多种。
如上所述的语义分析方法,其中,在步骤S4中,对任意两个所述语义信息的单句生成相应关键字字典,求出两类关键字字典的杰卡德距离作为语义信息的单句的相似性值,基于所述语义信息的单句的相似性值,确定所述语义信息的单句的相似性度量。
本发明的第二方面提出了一种语义分析装置,其中,包括:
获取模块,用于获取具有语义的文本信息;
操作模块,用于对所述文本信息进行多种不同的分词方法分词操作,获得多种分词标签,若多种分词方法中的某一分词方法中的某一分词相对应的分词标签在所述某一分词方法之外的其他分词方法出现的次数大于第一预设数量,将所述某一分词和所述分词标签作为关键字字典元素保存至关键字字典中;
统计提取模块,用于统计所述关键字字典元素在语义信息的单句中的次数,提取所述关键字字典元素出现的次数大于第二预设数量的单句作为语义摘要信息;以及
排序模块,用于基于所述语义信息的单句的相似性度量,对语义信息的单句进行排序作为相似语义信息推荐顺序。
如上所述的语义分析装置,其中,所述文本信息包括:从网页或文本中获取的文本信息、利用光学字符识别提取的图像中的文本信息、和/或利用语音识别技术转化获得的文本信息。
本发明的第三方面提出了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的语义分析方法的步骤。
本发明的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上所述的语义分析方法的步骤
上述技术特征可以各种适合的方式组合或由等效的技术特征来替代,只要能够达到本发明的目的。
附图说明
图1为本发明实施例的一种语义分析方法的流程图;
图2为本发明实施例的语义分析装置的结构示意图;以及
图3为本发明实施例提供的终端设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
下面结合附图详细说明本发明实施例的技术方案。
如图1至图3所示,本发明提出了一种语义分析方法,其中,本发明的语义分析方法包括:
S1:获取具有语义的文本信息;
S2:对文本信息进行多种不同的分词方法分词操作,获得多种分词标签,若多种分词方法中的某一分词方法中的某一分词相对应的分词标签在所述某一分词方法之外的其他分词方法出现的次数大于第一预设数量,将该某一分词和分词标签作为关键字字典元素保存至关键字字典中;
S3:统计关键字字典元素在语义信息的单句中的次数,提取关键字字典元素出现的次数大于第二预设数量的单句作为语义摘要信息;以及
S4:基于语义信息的单句的相似性度量,对语义信息的单句进行排序作为相似语义信息推荐顺序。
具体地,在步骤S1中,文本信息包括:从网页或文本中获取的文本信息、利用光学字符识别(OCR,Optical Character Recognition)提取的图像中的文本信息、和/或利用语音识别技术转化获得的文本信息。
具体地,在步骤S2中,比较多种分词方法所使用词性标签,并按词性标签重复性降序排列多种分词方法,并从词性标签中选择第三预设数量的共同的标签标记,初始化关键字字典。
进一步地,在该步骤中,若多种分词方法中的某一分词方法中的某一分词相对应的分词标签在某一分词方法之外的其他分词方法出现的次数在第一预设数量和小于第一预设数量的第四预设数量之间时,对分词进行扩展,并且若扩展后的分词在某一分词方法之外的其他分词方法出现的次数大于第一预设数量,将扩展后的分词及其相对应的分词标签作为关键字字典元素保存至关键字字典中。
在一具体实施例中,在步骤S2中,选择每个文本信息片段分别进行n种不同的分词方法分词操作,获得n种分词标签结果;比较n种分词方法所使用词性标签并按词性标签重复性降序排列并从中选择k个共同的标签标记,初始化关键字字典。对某一分词方法获得的任意分词,根据其分词标签统计其在其他n-1个分词方法中上述任一共同标签标记的出现情况,当该分词出现相同分词标签的分词方法大于T种时,则将该分词和分词标签作为字典元素保存至关键字字典中;当出现相同分词标签的分词方法大于t而小于T种时,对该分词分别进行前、后p个分词的扩展,并依次进行分词方法统计,如大于T种则按照扩展后分词结果更新字典同时修正原分词结果;当出现相同分词标签的分词方法小于t种则丢弃该分词。
具体地,在步骤S3中,根据预设符号将语义信息分割成单句,预设符号包括句号、问号以及感叹号中的一种或多种。
在一具体实施例中,在该步骤中,对单个语义信息片段分段排序。首先根据句号、问号、感叹号作为分句标记对语义信息进行句子分割形成单句。针对每个单句统计不重复的Cd个关键字字典元素出现词频并按出现词频,提取出现词频数大于Cf的句子作为语义摘要信息。
具体地,在步骤S4中,对任意两个语义信息的单句生成相应关键字字典,求出两类关键字字典的杰卡德距离作为语义信息的单句的相似性值,基于语义信息的单句的相似性值,确定语义信息的单句的相似性度量。
在一具体实施例中,在本步骤中,对多个语义信息片段相似性度量,先对任意两个单语义信息生成其相应关键字字典,并求两类字典的杰卡德距离作为两单语义信息相似性值。根据所有语义信息片段间相似性值给出每个单个语义信息片段的相似性列表作为相似语义信息片段推荐顺序。
本发明涉及自然语言处理、人工智能、深度学习等技术领域,提出一种容错机制的融合策略实现对具有语义信息的消息分析方法,具体是一种基于可扩展投票机制结合分词识别定位技术完成信息检索、信息筛选抽取的消息推荐方法,可应用于文本分析、服务应答、残障辅助、消息推荐、人机交互等领域。
本发明与现有的语义分析方法相比较,具有的特点是:
1)本发明中基于多种中文词性标签信息进行融合,利用投票机制确定文本关键字字典并利用容错机制校正可能存在的关键字错分情况。
2)利用容错的文本关键字字典按照分句关键字类型词频对分句进行量化排序。
3)根据关键字字典对多个语义信息片段进行相似度度量并实现相似语义信息片段排序推荐。
现对本发明的一具体实施例进行详细地描述,以使本发明清楚,其并非旨于对本发明的限制。
在一具体实施例中,本发明的语义分析方法包括如下步骤:
(1)获取具有语义的中文文本信息,所述的文本信息可以包括网页、文件中获取的文本信息,利用OCR提取的图像中的文本信息,利用语音识别技术转化获得的文本信息等;
(2)选择每个文本信息片段分别进行n种不同的分词方法分词操作,获得n种分词标签结果;比较n种分词方法所使用词性标签并按词性标签重复性降序排列并从中选择k个共同的标签标记,初始化关键字字典。对某一分词方法获得的任意分词,根据其分词标签统计其在其他n-1个分词方法中上述任一共同标签标记的出现情况,当该分词出现相同分词标签的分词方法大于T种时,则将该分词和分词标签作为字典元素保存至关键字字典中;当出现相同分词标签的分词方法大于t而小于T种时,对该分词分别进行前、后p个分词的扩展并依次进行分词方法统计,如大于T种则按照扩展后分词结果更新字典同时修正原分词结果;当出现相同分词标签的分词方法小于t种则丢弃该分词;
(3)对单个语义信息片段分段排序。首先根据句号、问号、感叹号作为分句标记对语义信息进行句子分割形成单句。针对每个单句统计不重复的Cd个关键字字典元素出现词频并按出现词频,提取出现词频数大于Cf的句子作为语义摘要信息;
(4)对多个语义信息片段相似性度量,先对任意两个单语义信息生成其相应关键字字典,并求两类字典的杰卡德距离作为两单语义信息相似性值。根据所有语义信息片段间相似性值给出每个单个语义信息片段的相似性列表作为相似语义信息片段推荐顺序。
本发明借鉴信息融合方法,采用柔性投票机制,实现了基于分词词性纠错和词频分析的语义信息量化排序分析,可用于文本关键词提取、基于词频的分句提取、分句相似性计算、消息推荐等,针对目前基于分词词性标注的语义分析问题,提出了一种容错机制方法框架,用来实现:
(1)基于多语义分词标签策略条件下的关键字提取与字典生成;
(2)单个语义信息片段语义摘要信息量化分析、提取;
(3)多个语义信息片段间相似性度量;
(4)单个语义信息片段相似语义信息片段的推荐。
如图2所示,本发明的第二方面提出了一种语义分析装置,其中,本发明的语义分析装置包括:获取模块10,用于获取具有语义的文本信息;操作模块20,用于对文本信息进行多种不同的分词方法分词操作,获得多种分词标签,若多种分词方法中的某一分词方法中的某一分词相对应的分词标签在某一分词方法之外的其他分词方法出现的次数大于第一预设数量,将某一分词和分词标签作为关键字字典元素保存至关键字字典中;统计提取模块30,用于统计关键字字典元素在语义信息的单句中的次数,提取关键字字典元素出现的次数大于第二预设数量的单句作为语义摘要信息;以及排序模块40,用于基于语义信息的单句的相似性度量,对语义信息的单句进行排序作为相似语义信息推荐顺序。
其中,获取模块10、操作模块20、统计提取模块30以及排序模块40的详细功能对应于上述步骤S1至S4的过程,在此不再赘述。
图3是本发明一实施例提供的一种终端设备的示意图。如图3所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在存储器61中并可在处理器60上运行的计算机程序62,例如一种语义分析的程序。处理器60执行计算机程序62时实现上述各个语义分析方法的实施例中的步骤,例如上述所示的步骤S1至步骤S4。或者,处理器60执行计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图2所示模块10至40的功能。
示例性的,计算机程序62可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器61中,并由处理器60执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序62在终端设备6中的执行过程。
终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备6可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图3仅仅终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器61可以是终端设备6的内部存储单元,例如终端设备6的硬盘或内存。存储器61也可以是终端设备6的外部存储设备,例如终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器61还可以既包括终端设备6的内部存储单元也包括外部存储设备。存储器61用于存储计算机程序以及终端设备6所需的其它程序和数据。存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语义分析方法,其特征在于,所述语义分析方法包括:
S1:获取具有语义的文本信息;
S2:对所述文本信息进行多种不同的分词方法分词操作,获得多种分词标签,若多种分词方法中的某一分词方法中的某一分词相对应的分词标签在所述某一分词方法之外的其他分词方法出现的次数大于第一预设数量,将所述某一分词和所述分词标签作为关键字字典元素保存至关键字字典中;
S3:统计所述关键字字典元素在语义信息的单句中的次数,提取所述关键字字典元素出现的次数大于第二预设数量的单句作为语义摘要信息;以及
S4:基于所述语义信息的单句的相似性度量,对语义信息的单句进行排序作为相似语义信息推荐顺序。
2.根据权利要求1所述的语义分析方法,其特征在于,在步骤S1中,所述文本信息包括:从网页或文本中获取的文本信息、利用光学字符识别提取的图像中的文本信息、和/或利用语音识别技术转化获得的文本信息。
3.根据权利要求1所述的语义分析方法,其特征在于,在步骤S2中,比较所述多种分词方法所使用词性标签,并按词性标签重复性降序排列所述多种分词方法,并从所述词性标签中选择第三预设数量的共同的标签标记,初始化关键字字典。
4.根据权利要求3所述的语义分析方法,其特征在于,在步骤S2中,若多种分词方法中的某一分词方法中的某一分词相对应的分词标签在所述某一分词方法之外的其他分词方法出现的次数在所述第一预设数量和小于所述第一预设数量的第四预设数量之间时,对所述分词进行扩展,并且若扩展后的分词在所述某一分词方法之外的其他分词方法出现的次数大于所述第一预设数量,将所述扩展后的分词及其相对应的分词标签作为关键字字典元素保存至关键字字典中。
5.根据权利要求1所述的语义分析方法,其特征在于,在步骤S3中,根据预设符号将所述语义信息分割成单句,所述预设符号包括句号、问号以及感叹号中的一种或多种。
6.根据权利要求1所述的语义分析方法,其特征在于,在步骤S4中,对任意两个所述语义信息的单句生成相应关键字字典,求出两类关键字字典的杰卡德距离作为语义信息的单句的相似性值,基于所述语义信息的单句的相似性值,确定所述语义信息的单句的相似性度量。
7.一种语义分析装置,其特征在于,包括:
获取模块,用于获取具有语义的文本信息;
操作模块,用于对所述文本信息进行多种不同的分词方法分词操作,获得多种分词标签,若多种分词方法中的某一分词方法中的某一分词相对应的分词标签在所述某一分词方法之外的其他分词方法出现的次数大于第一预设数量,将所述某一分词和所述分词标签作为关键字字典元素保存至关键字字典中;
统计提取模块,用于统计所述关键字字典元素在语义信息的单句中的次数,提取所述关键字字典元素出现的次数大于第二预设数量的单句作为语义摘要信息;以及
排序模块,用于基于所述语义信息的单句的相似性度量,对语义信息的单句进行排序作为相似语义信息推荐顺序。
8.根据权利要求7所述的语义分析装置,其特征在于,所述文本信息包括:从网页或文本中获取的文本信息、利用光学字符识别提取的图像中的文本信息、和/或利用语音识别技术转化获得的文本信息。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的语义分析方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的语义分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110889985.8A CN113591488A (zh) | 2021-08-04 | 2021-08-04 | 一种语义分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110889985.8A CN113591488A (zh) | 2021-08-04 | 2021-08-04 | 一种语义分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113591488A true CN113591488A (zh) | 2021-11-02 |
Family
ID=78254818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110889985.8A Pending CN113591488A (zh) | 2021-08-04 | 2021-08-04 | 一种语义分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591488A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114693280A (zh) * | 2022-05-31 | 2022-07-01 | 山东国盾网信息科技有限公司 | 一种基于电子签名技术的数字化协同办公平台 |
CN114697286A (zh) * | 2022-04-18 | 2022-07-01 | 上海迎盾科技有限公司 | 即时通信数据的处理方法及装置、计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030055626A1 (en) * | 2001-09-19 | 2003-03-20 | International Business Machines Corporation | Sentence segmentation method and sentence segmentation apparatus, machine translation system, and program product using sentence segmentation method |
CN103605665A (zh) * | 2013-10-24 | 2014-02-26 | 杭州电子科技大学 | 一种基于关键词的评审专家智能检索与推荐方法 |
CN110874531A (zh) * | 2020-01-20 | 2020-03-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN113011156A (zh) * | 2021-01-20 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 审核文本的质检方法、装置、介质以及电子设备 |
CN113111654A (zh) * | 2021-04-09 | 2021-07-13 | 杭州电子科技大学 | 一种基于分词工具共性信息和部分监督学习的分词方法 |
-
2021
- 2021-08-04 CN CN202110889985.8A patent/CN113591488A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030055626A1 (en) * | 2001-09-19 | 2003-03-20 | International Business Machines Corporation | Sentence segmentation method and sentence segmentation apparatus, machine translation system, and program product using sentence segmentation method |
CN103605665A (zh) * | 2013-10-24 | 2014-02-26 | 杭州电子科技大学 | 一种基于关键词的评审专家智能检索与推荐方法 |
CN110874531A (zh) * | 2020-01-20 | 2020-03-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN113011156A (zh) * | 2021-01-20 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 审核文本的质检方法、装置、介质以及电子设备 |
CN113111654A (zh) * | 2021-04-09 | 2021-07-13 | 杭州电子科技大学 | 一种基于分词工具共性信息和部分监督学习的分词方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114697286A (zh) * | 2022-04-18 | 2022-07-01 | 上海迎盾科技有限公司 | 即时通信数据的处理方法及装置、计算机可读存储介质 |
CN114697286B (zh) * | 2022-04-18 | 2024-04-26 | 上海迎盾科技有限公司 | 即时通信数据的处理方法及装置、计算机可读存储介质 |
CN114693280A (zh) * | 2022-05-31 | 2022-07-01 | 山东国盾网信息科技有限公司 | 一种基于电子签名技术的数字化协同办公平台 |
CN114693280B (zh) * | 2022-05-31 | 2022-09-13 | 山东国盾网信息科技有限公司 | 一种基于电子签名技术的数字化协同办公平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11675977B2 (en) | Intelligent system that dynamically improves its knowledge and code-base for natural language understanding | |
CN108717406B (zh) | 文本情绪分析方法、装置及存储介质 | |
US8660834B2 (en) | User input classification | |
CN110457676B (zh) | 评价信息的提取方法及装置、存储介质、计算机设备 | |
Al-Emran et al. | Parsing modern standard Arabic using Treebank resources | |
Ekbal et al. | Part of speech tagging in bengali using support vector machine | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
CN111651986B (zh) | 事件关键词提取方法、装置、设备及介质 | |
Ji et al. | Data selection in semi-supervised learning for name tagging | |
CN113591488A (zh) | 一种语义分析方法及装置 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
Priyadarshi et al. | Towards the first Maithili part of speech tagger: Resource creation and system development | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
Moradi et al. | A hybrid approach for Persian named entity recognition | |
Nguyen et al. | Named entity recognition for Vietnamese | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
CN111858933A (zh) | 基于字符的层次化文本情感分析方法及系统 | |
Khan et al. | Urdu word segmentation using machine learning approaches | |
Shafi et al. | UNLT: Urdu natural language toolkit | |
Myint et al. | Disambiguation using joint entropy in part of speech of written Myanmar text | |
CN104699662A (zh) | 识别整体符号串的方法和装置 | |
Jabbar et al. | A comparative review of Urdu stemmers: Approaches and challenges | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
Govilkar et al. | Part of speech tagger for Marathi language | |
CN109657207B (zh) | 条款的格式化处理方法和处理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211102 |