CN109271626B - 文本语义分析方法 - Google Patents
文本语义分析方法 Download PDFInfo
- Publication number
- CN109271626B CN109271626B CN201811012430.XA CN201811012430A CN109271626B CN 109271626 B CN109271626 B CN 109271626B CN 201811012430 A CN201811012430 A CN 201811012430A CN 109271626 B CN109271626 B CN 109271626B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- document
- vector
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
一种文本语义分析方法与系统,可实现对文本数据基于词汇层面、句子层面的语义分析。针对词汇层面的语义分析,本发明首先采用改进分词算法,解决英文仅以空格分词带来的不足;其次基于分词基础进行TF‑IDF建模,得到权重值;然后将权重值与Word2Vec训练得到的词向量进行加权求和将文本向量化,最后求解文档相似度。本发明同时考虑词汇对文档内容贡献度和语义地位计算文档相似度,结果具有更高准确度,为后续的文本聚类提供良好的基础。针对句子层面的语义分析,本发明以文本分词、词性标注、句法分析、依存关系为基础,进行主谓宾结构提取。本发明实现了全方面、多种句子类型的主谓宾结构提取,并实现了名词扩展功能,更符合人工提取结果。
Description
技术领域
本发明涉及自然语言处理中的文本语义分析方法,具体涉及文本数据词汇层面、句子层面语义分析方法与系统。
背景技术
随着互联网技术和信息技术的不断发展,以及大数据时代的来临,特定技术领域的数据不断丰富,数据总量越来越大,数据之间的关系也越来越复杂,如何准确且快速地从规模庞大的文本数据中提取有价值的信息成为现阶段我们面临的挑战。
文本分词是自然语言处理必经步骤,一个好的分词对后续建模分析有着至关重要的影响。现有的英文分词都是基于空格来划分英文单词,虽得到了广泛的应用,但针对某一特定研究领域,现有的英文分词方法无法满足研究人员需要。对文档进行分词处理后,可根据词形和词频计算文本相似度,虽然这种方法模型简单,易于构造,但是没有考虑到文本内容中词汇语义上的联系,无法解决“一词多义”和“一义多词”的问题,同时准确性也有待提升。为解决以上问题,研究者们提出基于语义分析的文本相似度求解算法,而基于语义分析的文本相似度在准确性方面虽有较大的提升。但现有的基于语义分析的文本相似度求解算法模型复杂,耗时耗力,无法快速地计算长文档之间的相似度。基于此,本发明针对目前英文分词无法得到专业技术词组以及长文本的文本相似度计算提供一种基于词汇层面的语义分析方法。
随着信息技术的不断发展,基于SAO结构的文本语义分析方法在很多领域得到了广泛的应用,SAO结构在表达语义的同时,还可以有效展示语句元素之间的语义关系,从而获得一个更加完整的语义理解。Sandford Parser虽然对英文文本的依存句法分析已经有一定的研究,但没有涉及不同句子类型的分析,且提供的分词、词性标注功能无法满足于特定专业领域的需要。基于此,本发明针对以上的不足提供一种基于句子层面的语义分析方法提取文本中SAO结构。
发明内容
本发明的目的就是针对现有技术的局限和不足,公开的一种文本语义分析方法与系统,涉及文本数据词汇层面、句子层面的语义分析方法。
本发明的目的可通过以下技术方案来实现:
文本语义分析方法与系统包括以下功能:
S1:对输入的非结构化文本数据进行基于词汇层面的语义分析;
S2:对输入的非结构化文本数据进行基于句子层面的语义分析。
为实现对输入的非结构化文本数据基于词汇层面的语义分析功能,本发明公开的方法包括:
步骤S1-1:对输入的非结构化文本数据进行文本预处理,分句,以及采用改进的分词算法进行分词,得到分词后文档。
步骤S1-2:利用TF-IDF模型对分词后文档进行建模,得到分词结果在文本中权重。
步骤S1-3:将分词后文本进行Word2Vec模型训练得到词向量模型,使用训练得到的词向量模型,得到词的向量表示。
步骤S1-4:将步骤S1-2中得到的权重值与步骤S1-3中得到的词向量表示进行加权求和,得到文档向量值表示。
步骤S1-5:针对文档向量值采用余弦相似度计算文档之间相似度。
为实现对输入的非结构化文本数据基于句子层面的语义分析功能,本发明公开的方法包括:
步骤S2-1:对输入的非结构化文本数据进行文本预处理,分句以及采用步骤S1-1中分词算法进行分词,得到分词后文档;
步骤S2-2:利用组合标注器方法对分词后的文档进行词性标注,得到词性标注集;
步骤S2-3:以步骤S1-1中的文本分词、步骤S2-2中的词性标注、句法分析、依存关系为基础,对输入的非结构文本数据进行SAO结构提取,提取文本信息中的主语,谓语,宾语。
作为本发明的进一步改进,所述步骤S1-1具体步骤如下:
将正向最大匹配算法加入到英文分词方法中,进行文本分词。首先采用正向最大匹配算法对待分词文本进行基于词典的匹配分词,遇到词典中存在的词组就提取出该词组;然后对不存在匹配的剩余文本就以英文常见的空格分词,循环往复,直到字符串为空。
作为本发明的进一步改进,所述步骤S1-3具体步骤如下:
步骤S1-3-1:将分词后的文本转变为学习语料作为Word2Vec模型的输入,即将分词后文本存储为一行,去除所有的标点符号,保存格式设置为UTF-8。
步骤S1-3-2:设置Word2Vec的参数,词向量维度设为200,上下窗口设为5,利用Skip-gram方法进行模型训练。
步骤S1-3-3:使用训练好的Word2Vec模型,得到单词词向量;
步骤S1-3-4:对词组中单词词向量每维度进行加和求平均得到词组的向量值。
作为本发明的进一步改进,所述步骤S1-4具体步骤如下:
步骤S1-4-1:根据分词结果在文本中权重大小,选取Top20单词或词组表征本篇文档;
步骤S1-4-2:将权重值与Word2Vec词向量结合,以TF-IDF的值作为词向量的权重值,进行加权求和求平均得到文档的向量值。
其中,doci表示第i个文本向量,wk,i表示第i个单词或词组在文档k中的TF-IDF值,j为文本词向量的具体维度的下限0,m为文本词向量的具体维度上限200,Wordj表示文本的每个单词或词组的第j维词向量,n为选取的表征本篇文档的单词或者词组的数目为20。
作为本发明的进一步改进,所述步骤S2-2具体步骤如下:
步骤S2-2-1:使用TrigramTagger标注器标注标识符;
步骤S2-2-2:若TrigramTagger标注器无法找到标记,回退使用bigram标注器;
步骤S2-2-3:若bigram也无法找到标记,回退使用unigram标注器;
步骤S2-2-4:若unigram标注器仍无法找到标记,回退默认标注器,默认标注器采用正则表达式标注器,基于匹配模式分配标记给标识符,本发明中默认无法标注的标识符以ing结尾的为动名词,以ed结尾的为一般过去式,以es结尾的为第三人称单数,以ould结尾的为情态动词,以’s结尾的为名词所有格,以s结尾的为复数形式,匹配模式是按顺序处理的,只有上一个匹配没被使用才会转入下一个,由于大多数新词都将是名词,所以最终没有被匹配的标识符被标注为名词。
作为本发明的进一步改进,所述步骤S2-3具体步骤如下:
步骤S2-3-1:从输入的非结构化的文本数据集中分离出每篇文档,然后对分离出的每篇文档进行分句,分词,分词算法采用步骤S1-1中分词算法,可得到专业技术领域术语
步骤S2-3-2:以步骤S1-1中的文本分词、步骤S2-2中的词性标注、句法分析、依存关系为基础,提取动词,提取的动词包括谓语动词和非谓语动词,其中非谓语动词为动宾短语中的词,提取动词之后并判断出所处理的文本是主动句还是被动句;
步骤S2-3-3:提取动词后,以步骤S1-1中的文本分词、步骤S2-2中的词性标注、句法分析、依存关系为基础,提取位于谓语动词左侧的的所有主语(S),提取的主语(S)包括名词主语、被动的名词主语、从主关系中主语、主从被动关系中主语、代理词作为主语,以及出现在“there”、“that”、“whether”、“because”、“when”、“where”句子中主语及由连词连接的并列主语。若与该动词毗邻的无主语,则不再检查该动词;
步骤S2-3-4:提取主语后,以步骤S1-1中的文本分词、步骤S2-2中的词性标注、句法分析、依存关系为基础,判断S2-3-2中提取动词右边是否为连动词,若为连动词,则提取位于谓语动词右侧的所有的宾语(O),提取的宾语(O)包括直接宾语、间接宾语、介词宾语、属性作为宾语及连动词连接的并列宾语;
步骤S2-3-5:基于以上提取的SAO结果,将结果输出,如果句子为被动句,则被动句的主语和宾语输出时要互相对调以符合提取结果实情。
本发明相对于现有的技术具有如下的优点及效果:
(1)本发明将正向最大匹配算法应用于英文分词方法中,解决了英文分词以空格分词仅得到单词的不足,可根据用户加载的自定义词典提取出特定领域的专业词汇,并进行特定领域词向量表示以及文章相似度计算,在准确性方面有明显的提高且具有较高的通用性。
(2)本发明计算文本相似度时,本发明综合考虑词汇对文档内容贡献度和语义地位的信息,采用TFIDF的值表征词汇对文档内容贡献度,Word2Vec模型训练的向量值表征词汇的语义地位,相较于传统的文本相似度计算具有更高的准确性,同时也降低了算法计算的复杂度,提高了处理效率,为后续的文本聚类提供了良好的基础。
(3)本发明采用组合标注器方法实现单词和词组在句子层面的,广覆盖度的词性标注,并实现了生词自动标注功能。
(4)本发明以改进的文本分词、改进的词性标注、句法分析、关系表示为基础,充分考虑主语和宾语多种情况,主语包括名词主语、被动名词主语、从主关系中主语、主从被动关系中主语、代理词作为主语、出现在“there”、“that”、“whether”、“because”、“when”、“where”句子中主语及由连词连接的并列主语;宾语包括直接宾语、间接宾语、介词宾语、属性作为宾语及连动词连接的并列宾语。同时鉴于英文句型的复杂性,对不同句型采用不同的处理方法,提取的SAO结果,在准确性方面有了极大地提高,更符合人工提取结果。
附图说明
图1为本发明一种实施例公开的总体配置框图
图2为本发明的基于词汇层面的语义分析的流程图
图3为本发明使用Word2Vec模型训练得到词向量的流程图
图4为本发明的基于句子层面的语义分析的流程图
图5为本发明的词性标注的流程图
图6为本发明的SAO结构抽取的流程图
具体实施方式
为了使本技术领域的人员更好的理解本发明方案,下面将结合本发明实例中的附图对本发明方案的实施方式进行详细描述。
如图1所示,本发明公开一种文本语义分析方法与系统,主要涉及两个粒度的文本语义处理,包括:
S1:对输入的非结构化文本数据进行基于词汇层面的语义分析。
S2:对输入的非结构化文本数据进行基于句子层面的语义分析。
如图2所示,本发明的基于词汇层面的语义分析的具体过程如下步骤S1-1~S1-5。
由于本发明具有通用性,不同数据源的文本数据都可进行处理,输入的非结构文本数据格式为ANSI,保存为txt文件即可,下面以钙钛矿太阳能电池领域文本信息为样本进行词汇层面和句子层面的语义分析。
步骤S1-1:对输入的非结构化文本数据进行文本预处理、分句以及采用改进的分词算法进行分词,得到分词后文档。
这里输入的非结构文本数据是从Google新闻上爬取的有关钙钛矿太阳能电池领域的新闻文本数据集,所获取的文本数据集主要包括每篇新闻的内容,每篇新闻报道保存为一个txt文件。对获取的文本数据集进行预处理,分句以及分词处理,这里的预处理主要包括去除新闻中http网址符号,去除停用词,词形归并等操作,得到预处理后文本数据。
加载该领域的技术专用词典,然后将预处理后文本数据完整的扫描一遍,与技术专用词典中的词语进行查找匹配,遇到词典中存在的词组就提取出该词组;如果技术专用词典中不存在相关匹配,就以英文常见的以空格分割单词,循环往复,直至文本数据为空,得到每篇新闻文本的分词结果。这里的钙钛矿太阳能电池领域的技术专用词典是基于WordNet中与钙钛矿太阳能电池技术相关概念以及钙钛矿太阳能电池技术用语集整理的专业技术术语库,涵盖范围较大,词汇收集较全,因此可以作为提取该领域词汇的字典。
例如:对“IMEC has demonstrated a fully solution-processed organicsolar cell with a spray-coated active layer and a metal top contact spray-coated on top.”进行文本分词,分词结果为:
“IMEC/demonstrated/fully/solution-processed/organic solar cell/spray-coated active layer/metal/top/contact/spray-coated/top.”
步骤S1-2:利用TF-IDF模型对分词后文档进行建模,得到分词结果在文本中权重。
对文档进行分词处理后,但分词所得结果并不是每个词都是有意义的,即有的词对文档的内容贡献度较少,因此计算文档与文档的相似度可以不用考虑文档中全部的词,可只考虑对文档内容贡献度大的词。TF-IDF经常被用来评估一个字词对于一篇文档的重要程度,TF-IDF的主要思想是:如果某个词或者词语在一篇文档中出现的频率较高,并且在其他的文档中很少出现,则认为该词或者词语具有很好的类别区分能力,该词或者词语文档内容贡献度较大。基于以上分词结果,对每篇文档中每个分词结果进行TF-IDF值的计算,得到每篇文档中每个分词结果在文本中权重。
步骤S1-3:将分词后文本进行Word2Vec模型训练得到词向量模型,使用训练得到的词向量模型,得到词的向量表示。
本发明中采用Google开源项目Word2Vec模型,根据输入的语料库,利用神经网络将句子通过优化的训练模型进行词向量训练,得到每个单词的向量表示。
如图3所示,本发明使用Word2Vec训练向量模型,得到词向量表示的具体过程如下步骤S1-3-1~S1-3-4。
步骤S1-3-1:将分词后的文本转变为学习语料作为Word2Vec模型的输入,即将分词后文本所有的数据所有的数据存储为一行,没有标点符号,保存的数据格式设置为UTF-8。
在自然语言处理中,学习语料的选取至关重要,语料的选取要注意两个问题:(1)语料应该足够大,能够尽可能多地包含反映词语之间关系的句子,例如,只有“IMEC hasdemonstrated a fully solution-processed organic solar cell”这种句式在语料中尽可能地多,模型才能够学习到该句中的语义和语法关系。(2)语料应该能够正确反映该语言的语义和语法关系。本发明中采用了自己爬取的1116条Google新闻作为训练语料,语料比较准确,该语料编码格式为UTF-8,所有的数据存储为一行,没有标点符号。该学习语料具有通用性,不同应用领域的用户可以按照这个格式加载自己的语料库。
步骤S1-3-2:设置Word2Vec的参数,词向量维度设为200,上下窗口设为5,利用Skip-gram方法进行模型训练。
在不同大小的语料集中,针对不同的需求,对输出结果精确度的要求也是不同的,本发明将神经网络层数设置为200,上下窗口数设置为5,利用Skip-gram方法进行模型训练。
步骤S1-3-3:使用训练好的Word2Vec模型,得到单词词向量值。
模型训练好之后,就可以调用相应代码,查看相应单词的词向量值。例如,本发明中神经网络层数为200,会得到一个200维的词向量值。
步骤S1-3-4:对词组中单词词向量每维度进行加和求平均得到词组的向量值。
英文文本默认以空格进行分词,本发明中最初分词涉及词组,因此需要得到词组的向量值。本发明中采用的方法是将遍历词组中单词,将单词向量每维度的值进行加和求平均得到相应词组的向量值。
步骤S1-4:将步骤S1-2中得到的权重值与步骤S1-3中得到的词向量表示进行加权求和,得到文档向量值表示。
在一篇文档中,并不是所有的单词或者词组都是有价值的,因此在对一篇文档进行向量表示时可以提取文本关键信息,使用这些关键信息表征文档,进而可快速、准确的实现文档的向量表示。
本发明基于词语本身特点——词频及文档频率提取文本关键信息,同时基于词语的语义关系--词语所在上下文环境训练词向量语义信息,得到更高质量的“文本向量”。本发明根据TF-IDF值选取TOP20单词或者词组表征一篇文档,以计算出的TOP20单词或者词组的TF-IDF的值作为Word2Vec向量的权重,对每一个词向量进行加权求和求平均得到文档的向量表示.
其中,doci表示第i个文本向量,wk,i表示第i个单词或词组在文档k中的TF-IDF值,j为文本词向量的具体维度的下限0,m为文本词向量的具体维度上限200,Wordj表示文本的每个单词或词组的第j维词向量,n为选取的表征本篇文档的单词或者词组的数目为20。
步骤S1-5:针对文档向量值采用余弦相似度计算文档之间相似度。
sim(o,p)=1-cos(doco,docp)
其中,o表示第o篇文档,p表示第p篇文档,doco表示第o篇文档向量,docp表示第p篇文档向量。
如图4所示,本发明的基于句子层面的语义分析的具体过程如下步骤S2-1~S2-3。
步骤S2-1:对输入的非结构化文本数据进行文本预处理,分句以及分词,以及采用步骤S1-1中分词算法进行分词,得到分词后文档。
这里输入的非结构化文本数据仍是从Google新闻上爬取的有关钙钛矿太阳能电池领域的新闻文本数据集,所获取的文本数据集主要包括每篇新闻的内容,所有的新闻报道保存为一个txt文件,且每篇新闻报道以回车符相区分。对获取的文本数据集进行预处理,分句以及分词处理,这里的预处理主要是去除新闻中http网址符号,去除相同报道内容的新闻等操作,得到预处理后的文本数据。分词功能与上述分词功能相同,得到所有新闻文本的分词文档。
步骤S2-2:利用组合标注器方法对分词后文档进行词性标注,得到词性标注集。
由于要提取文本数据的SAO结构,所以词性标记是处理过程中很重要的一环。本发明采用组合标注器方法对分词后文档进行词性标注,可基于标注词的上下文的词性为其挑选最有可能的标记,从而可提高标注的精度,同时组合多种标注器也可实现广覆盖度的词性标注以及自动实现生词标注。
如图5所示,本发明使用组合标注器方法标注分词后文档,得到词性标注集的具体过程如下步骤S2-2-1~S2-2-4。
本发明中使用的组合标注器包括N-gram标注器和正则表达式编写的默认标注器,采用N-gram标注器,可实现基于上下文进行词性标注的功能,但是当n越大时,上下文的特异性就会增加,即数据稀疏性会增加。为解决这个问题,本发明将不同N-gram标注器进行组合,实现覆盖范围更广的词性标注。
基于上下文的词性标注只能标注训练过程中看到过的单词,而对于自己没有看到过的生词以及词汇表之外的项目无法正确标注,标注生词的方法是回退到默认标注器。本发明使用自行编写的正则表达式作为默认标注器,基于匹配模式分配标记给标识符。
步骤S2-2-1:使用Trigramtagger标注器标注标识符。
Trigramtagger标注器是3-gram标注器的别称,本发明首先考虑当前词的前两个词的标记,然后为标记词选择在给定的上下文中最有可能的标记。
步骤S2-2-2:若TrigramTagger标注器无法找到标记,回退使用bigram标注器。
在要标注的数据中包含训练数据中不存在的当前词的前两个词,在本发明中则尝试使用bigram标注器,bigram标注器是2-gram标注器的别称,即考虑当前词的前1个词的标记,为标记词选择最有可能的标记。
步骤S2-2-3:若bigram也无法找到标记,回退使用unigram标注器。
在要标注的数据中包含训练数据中不存在的当前词的前一个词,在本发明中则尝试使用unigram标注器,unigram标注器是1-gram标注器的别称,是利用一种简单的统计算法,为每个标识符分配最为可能的标记。
步骤S2-2-4:若unigram标注器仍无法找到标记,回退默认标注器,默认标注器采用正则表达式标注器,基于匹配模式分配标记给标识符。
在要标注的数据中如果存在训练过程中没有看到过的生词或者词汇表之外的项目,采用基于上下文的N-gram标注器无法为其分配正确的词性,因此在本发明中尝试使用默认标注器,本发明中默认标注器采用自行编写的正则表达式标注器,本发明中默认无法标注的标识符以ing结尾的为动名词,以ed结尾的为一般过去式,以es结尾的为第三人称单数,以ould结尾的为情态动词,以’s结尾的为名词所有格,以s结尾的为复数形式,匹配模式是按顺序处理的,只有上一个匹配没被使用才会转入下一个,由于大多数新词都将是名词,所以最终没有被匹配的标识符被标注为名词。
在要标注的数据中如果存在训练过程中没有看到过的生词或者词汇表之外的项目,采用基于上下文的N-gram标注器无法为其分配正确的词性,因此在本发明中尝试使用默认标注器,本发明中默认标注器采用正则表达式标注器,基于匹配模式分配标记给训练过程中没有看到过的生词或者词汇表之外的项目。
步骤S2-3:以步骤S1-1中的文本分词、步骤S2-2中的词性标注、句法分析、依存关系为基础,对输入的非结构文本数据进行SAO结构提取,提取文本信息中的主语,谓语,宾语。
现有的英文自然语言处理技术具有分词、词性标注的过程,鉴于其对专业技术领域英文的处理能力不能很好的满足目标要求,所以将其调整为本发明中提供的分词和词性标注功能,然后借鉴依存树思想,借助世界最快句法分析器spaCy分析句子中句法结构信息,提取文档中的SAO结构。本发明中对SAO结构的提取涉及对句子类型的分析,添加了对被动句SAO结构的提取。本发明还解决了在“there”、“that”、“whether”、“because”、“when”、“where”句子前的成分做主语的问题。
如图6所示,本发明提取SAO结构的具体过程如下步骤S2-3-1~S2-3-5。
步骤S2-3-1:从输入的非结构化的文本数据集中分离出每篇文档,然后对分离出的每篇文档进行分句,分词,分词算法采用步骤S1-1分词算法,可得到专业技术领域术语。
这里输入的非结构化文本数据仍是从Google新闻上爬取的有关钙钛矿太阳能电池领域的新闻文本数据集,所获取的文本数据集主要包括每篇新闻的内容,所有的新闻报道保存为一个txt文件,且每篇新闻报道以回车符相区分。处理过程与步骤S2-1的过程相同,输出结果为分完词文档。
步骤S2-3-2:判断句子类型及提取动词,以步骤S1-1中的文本分词、步骤S2-2中的词性标注、句法分析、依存关系为基础,提取动词,提取的动词包括谓语动词和非谓语动词,其中非谓语动词为动宾短语中的词,提取动词之后并判断出所处理的文本是主动句还是被动句。
为了克服现有技术在英文分词及词性标注上的不足,将spaCy中的文本分词、词性标注调整为本发明中的文本分词和词性标注。根据语言学可知,谓语一般为动词,本发明就基于改进的文本分词、改进的词性标注的基础,提取出英文文本中的动词,其中动词包括谓语动词和非谓语动词,并判断出所处理的英文文本主动句还是被动句。
步骤S2-3-3:提取动词后,以步骤S1-1中的文本分词、步骤S2-2中的词性标注、句法分析、依存关系为基础,提取位于谓语动词左侧的的所有主语(S),提取的主语(S)包括名词主语、被动的名词主语、从主关系中主语、主从被动关系中主语、代理词作为主语,以及出现在“there”、“that”、“whether”、“because”、“when”、“where”句子中主语及由连词连接的并列主语。若与该动词毗邻的无主语,则不再检查该动词。
根据语言学可知,谓词提取出之后,就等同于确定了整个句子的核心。根据句子构成可知,主语位于谓语动词的左侧,本发明循环遍历谓语左侧的非限定词的单词的依存关系是否为名词主语(nsubj)、被动名词主语(nsubjpass),从主关系(csubj),主从被动关系(csubjpass),代理词(agent),若是,则将相应的词语添加到主语list之中。本发明还考虑了出现在“there”、“that”、“whether”、“because”、“when”、“where”单词前成分做主语的情况,以及由连词连接共用一个主语的情况。本发明中当“there”、“that”、“whether”、“because”、“when”、“where”等单词出现时,主语为这些单词右边单词的父亲节点。当句子中出现连词,共用一个主语时,本发明则将分别输出两句SAO结构。
例如”IMEC has demonstrated a fully solution-processed organic solarcell and a cheap inorganic solar cells.”
SAO提取结果为:
IMEC(S)/demonstrated(V)/a fully solution-processed organic solar cell(O).
IMEC(S)/demonstrated(V)/a cheap inorganic solar cells(O).
步骤S2-3-4:提取主语后,以步骤S1-1中的文本分词、步骤S2-2中的词性标注、句法分析、依存关系为基础,判断S2-3-2中提取动词右边是否为连动词,若为连动词,则提取谓语动词右侧的所有的宾语(O),提取的宾语(O)包括直接宾语、间接宾语、介词宾语、属性作为宾语及连动词连接的并列宾语。
根据语言学和句子构成可知,宾语位于谓语动词的右边。本发明循环遍历谓语动词右边单词的依存关系,判断依存关系是否为直接宾语(dobj)、间接宾语(iobj)、介词宾语(pobj)、属性宾语(attr),若是,则将相应词语添加到宾语list中。本发明同样考虑了句子中出现连词,只有一个宾语的情况,同样分别输出两句SAO结构。
例如“IMEC and MIT has demonstrated a fully solution-processed organicsolar cell”
SAO提取结果为:
IMEC(S)/demonstrated(V)/a fully solution-processed organic solar cell(O).
MIT(S)/demonstrated(V)/a fully solution-processed organic solar cell(O).
步骤S2-3-5:基于以上提取的SAO结果,将结果输出,如果句子为被动句,则被动句的主语和宾语输出时要互相对调,以符合实情。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围内。
Claims (3)
1.文本语义分析方法,其特征在于,涉及两个粒度的文本语义处理,包括:
S1:对输入的非结构化文本数据进行基于词汇层面的语义分析;
S2:对输入的非结构化文本数据进行基于句子层面的语义分析;
其特征在于:
基于词汇层面语义分析S1的具体过程为:
步骤S1-1:对输入的非结构化文本数据进行文本预处理,分句,以及采用改进分词算法进行分词,得到分词后文档;具体分词处理步骤如下:
在步骤S1-1中改进的分词算法是将正向最大匹配算法加入到英文分词方法中,进行文本分词;首先采用正向最大匹配算法对待分词文本进行基于词典的匹配分词,然后对不存在匹配的剩余文本就以英文常见的空格分词,循环往复,直到字符串为空,该算法解决了英文分词以空格分词仅得到单词的不足,得到单词和词组;
步骤S1-2:利用TF-IDF模型对分词后文档进行建模,得到分词结果在文本中权重;
步骤S1-3:将分词后文本进行Word2Vec模型训练得到词向量模型,使用训练得到的词向量模型,得到词的向量表示;
步骤S1-4:将步骤S1-2中得到的权重值与步骤S1-3中得到的词向量表示进行加权求和,得到文档向量值表示;在步骤S1-4中,所述的将权重值与词向量进行加权求和,得到文档向量值表示的具体过程如下:
步骤S1-4-1:根据分词结果在文本中权重大小,选取Top20单词或词组表征本篇文档;
步骤S1-4-2:将权重值与Word2Vec词向量结合,以TF-IDF的值作为词向量的权重值,进行加权求和求平均得到文档的向量值;
doci表示第i个文本向量,wk,i表示第i个单词或词组在文档k中的TF-IDF值,j为文本词向量的具体维度的下限0,m为文本词向量的具体维度上限200,Wordj表示文本的每个单词或词组的第j维词向量,n为选取的表征本篇文档的单词或者词组的数目为20;
步骤S1-5:针对文档向量值采用余弦相似度计算文档之间相似度;
基于句子层面语义分析S2的具体过程为:
步骤S2-1:对输入的非结构化文本数据进行文本预处理,分句以及采用步骤S1-1中分词算法进行分词,得到分词后文档;
步骤S2-2:利用组合标注器方法对分词后的文档进行词性标注,得到词性标注集;
步骤S2-3:以步骤S1-1中的文本分词、步骤S2-2中的词性标注、句法分析、依存关系为基础,对输入的非结构文本数据进行主谓宾结构提取,提取文本信息中的主语,谓语,宾语;具体过程如下:
步骤S2-3-1:从输入的非结构化的文本数据集中分离出每篇文档,然后对分离出的每篇文档进行分句,分词,分词算法采用步骤S1-1中分词算法,得到专业技术领域术语;
步骤S2-3-2:判断句子类型及提取动词,以步骤S1-1中的文本分词、步骤S2-2中的词性标注、句法分析、依存关系为基础,提取动词,提取的动词包括谓语动词和非谓语动词,其中非谓语动词为动宾短语中的词,提取动词之后并判断出所处理的文本是主动句还是被动句;
步骤S2-3-3:提取动词后,以步骤S1-1中的文本分词、步骤S2-2中的词性标注、句法分析、依存关系为基础,提取位于谓语动词左侧的所有主语(S),提取的主语(S)包括名词主语、被动的名词主语、从主关系中主语、主从被动关系中主语、代理词作为主语,以及出现在“there”、“that”、“whether”、“because”、“when”、“where”句子中主语及由连词连接的并列主语;若与该动词毗邻的无主语,则不再检查该动词;
步骤S2-3-4:提取主语后,以步骤S1-1中的文本分词、步骤S2-2中的词性标注、句法分析、依存关系为基础,判断S2-3-2中提取动词右边是否为连动词,若为连动词,则提取位于谓语动词右侧的所有的宾语(O),提取的宾语(O)包括直接宾语、间接宾语、介词宾语、属性作为宾语及连动词连接的并列宾语;
步骤S2-3-5:基于以上提取的SAO结果,将结果输出,如果句子为被动句,则被动句的主语和宾语输出时要互相对调以符合提取结果实情。
2.根据权利要求1所述的文本语义分析方法,其特征在于,在步骤S1-3中,所述的将分词后文本进行Word2Vec模型训练得到词向量模型,使用训练得到的词向量模型,得到词的向量表示的具体过程如下:
步骤S1-3-1:将分词后的文本转变为学习语料作为Word2Vec模型的输入,即将分词后文本存储为一行,去除所有的标点符号,保存格式设置为UTF-8;
步骤S1-3-2:设置Word2Vec的参数,词向量维度设为200,上下窗口设为5,利用Skip-gram方法进行模型训练;
步骤S1-3-3:使用训练好的Word2Vec模型,得到单词词向量;
步骤S1-3-4:对词组中单词词向量每维度进行加和求平均得到词组的向量值。
3.根据权利要求1所述的文本语义分析方法,其特征在于,在步骤S2-2中,所述的利用组合标注器方法对分词后文档进行词性标注,得到词性标注集具体过程如下:
步骤S2-2-1:使用TrigramTagger标注器标注标识符;
步骤S2-2-2:若TrigramTagger标注器无法找到标记,回退使用bigram标注器;
步骤S2-2-3:若bigram也无法找到标记,回退使用unigram标注器;
步骤S2-2-4:若unigram标注器仍无法找到标记,回退默认标注器,默认标注器采用正则表达式标注器,基于匹配模式分配标记给标识符,默认无法标注的标识符以ing结尾的为动名词,以ed结尾的为一般过去式,以es结尾的为第三人称单数,以ould结尾的为情态动词,以’s结尾的为名词所有格,以s结尾的为复数形式,匹配模式是按顺序处理的,只有上一个匹配没被使用才会转入下一个,由于大多数新词都将是名词,所以最终没有被匹配的标识符被标注为名词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811012430.XA CN109271626B (zh) | 2018-08-31 | 2018-08-31 | 文本语义分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811012430.XA CN109271626B (zh) | 2018-08-31 | 2018-08-31 | 文本语义分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109271626A CN109271626A (zh) | 2019-01-25 |
CN109271626B true CN109271626B (zh) | 2023-09-26 |
Family
ID=65154928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811012430.XA Active CN109271626B (zh) | 2018-08-31 | 2018-08-31 | 文本语义分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271626B (zh) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581953A (zh) * | 2019-01-30 | 2020-08-25 | 武汉慧人信息科技有限公司 | 一种自动解析英文文本语法现象的方法 |
CN110136513A (zh) * | 2019-05-13 | 2019-08-16 | 上海乂学教育科技有限公司 | 英语听力解析系统 |
CN110321925B (zh) * | 2019-05-24 | 2022-11-18 | 中国工程物理研究院计算机应用研究所 | 一种基于语义聚合指纹的文本多粒度相似度比对方法 |
CN110222344B (zh) * | 2019-06-17 | 2022-09-23 | 上海元趣信息技术有限公司 | 一种针对小学生作文辅导的作文要素分析算法 |
CN110377901B (zh) * | 2019-06-20 | 2022-11-18 | 湖南大学 | 一种针对配电线路跳闸填报案例的文本挖掘方法 |
CN110263341B (zh) * | 2019-06-20 | 2023-06-20 | 贵州电网有限责任公司 | 一种从文本中挖掘和定位个人能力的方法 |
CN110222346A (zh) * | 2019-06-20 | 2019-09-10 | 贵州电网有限责任公司 | 一种从交互数据中提取有效时间的方法 |
CN112182145A (zh) * | 2019-07-04 | 2021-01-05 | 北京京东尚科信息技术有限公司 | 文本相似度确定方法、装置、设备和存储介质 |
CN110457690A (zh) * | 2019-07-26 | 2019-11-15 | 南京邮电大学 | 一种专利创造性的判断方法 |
CN110427627B (zh) * | 2019-08-02 | 2023-04-28 | 北京百度网讯科技有限公司 | 基于语义表示模型的任务处理方法和装置 |
CN110457444A (zh) * | 2019-08-14 | 2019-11-15 | 山东浪潮人工智能研究院有限公司 | 一种基于深度文本匹配的同义句转换方法 |
CN110543630B (zh) * | 2019-08-21 | 2020-06-09 | 北京仝睿科技有限公司 | 文本结构化表示的生成方法、装置及计算机存储介质 |
CN110688847A (zh) * | 2019-08-23 | 2020-01-14 | 上海市研发公共服务平台管理中心 | 技术合同判定方法、装置、计算机设备和存储介质 |
CN110516244B (zh) * | 2019-08-26 | 2023-03-24 | 西安艾尔洛曼数字科技有限公司 | 一种基于bert的句子自动填充方法 |
CN110532391B (zh) * | 2019-08-30 | 2022-07-05 | 网宿科技股份有限公司 | 一种文本词性标注的方法及装置 |
CN110532566B (zh) * | 2019-09-03 | 2023-05-02 | 浪潮通用软件有限公司 | 一种垂直领域问句相似度计算的实现方法 |
CN110569510A (zh) * | 2019-09-17 | 2019-12-13 | 四川长虹电器股份有限公司 | 一种对用户请求数据的命名实体识别的方法 |
CN110633471A (zh) * | 2019-09-18 | 2019-12-31 | 宁夏大学 | 一种基于PubMed数据库的英文分词处理系统及方法 |
CN111027315B (zh) * | 2019-11-18 | 2023-06-09 | 曲阜师范大学 | 一种基于Word2Vec模型的WordNet中词语相似度计算方法 |
CN111104801B (zh) * | 2019-12-26 | 2023-09-26 | 济南大学 | 基于网址域名的文本分词方法、系统、设备及介质 |
CN111178038B (zh) * | 2019-12-27 | 2023-04-25 | 山东旗帜信息有限公司 | 一种基于潜在语义分析的文档相似度识别方法及装置 |
CN111243364A (zh) * | 2020-01-09 | 2020-06-05 | 东华大学 | 一种基于HanLP的注册电气工程师考试主观题自动评分方法 |
CN111259966A (zh) * | 2020-01-17 | 2020-06-09 | 青梧桐有限责任公司 | 多特征融合的同名小区辨别方法及系统 |
CN111274792B (zh) * | 2020-01-20 | 2023-06-27 | 中国银联股份有限公司 | 一种用于生成文本的摘要的方法及系统 |
CN111428469B (zh) * | 2020-02-27 | 2023-06-16 | 宋继华 | 面向句式结构图解分析的交互式标注方法和系统 |
CN111526141A (zh) * | 2020-04-17 | 2020-08-11 | 福州大学 | 基于Word2vec和TF-IDF的Web异常检测方法与系统 |
CN111597793B (zh) * | 2020-04-20 | 2023-06-16 | 中山大学 | 基于sao-adv结构的论文创新性的测度方法 |
CN111985227A (zh) * | 2020-07-20 | 2020-11-24 | 东南大学 | 一种英语句子时态语态自动判断方法 |
CN112148838B (zh) * | 2020-09-23 | 2024-04-19 | 北京中电普华信息技术有限公司 | 一种业务源对象提取方法与装置 |
CN112528641A (zh) * | 2020-12-10 | 2021-03-19 | 北京百度网讯科技有限公司 | 建立信息抽取模型的方法、装置、电子设备和可读存储介质 |
CN112650836B (zh) * | 2020-12-28 | 2022-11-18 | 成都网安科技发展有限公司 | 基于句法结构元素语义的文本分析方法、装置及计算终端 |
CN112733547A (zh) * | 2020-12-28 | 2021-04-30 | 北京计算机技术及应用研究所 | 一种利用语义依存分析的中文问句语义理解方法 |
CN112784036A (zh) * | 2020-12-31 | 2021-05-11 | 山西三友和智慧信息技术股份有限公司 | 基于无监督集成学习的抽取式文本摘要方法 |
CN112733517B (zh) * | 2021-01-12 | 2022-12-06 | 上海复佳信息科技有限公司 | 需求模板符合性检查的方法、电子设备及存储介质 |
CN112884440B (zh) * | 2021-03-02 | 2024-05-24 | 岭东核电有限公司 | 核电试验中的试验工序执行方法、装置和计算机设备 |
CN115081441A (zh) * | 2021-03-11 | 2022-09-20 | 中国移动通信集团江苏有限公司 | 运维指令意图识别方法、装置、电子设备和存储介质 |
CN113010681B (zh) * | 2021-03-24 | 2024-03-15 | 华东理工大学 | 一种基于句子向量化的无监督选取医疗语料文本方法 |
CN113282955B (zh) * | 2021-06-01 | 2022-07-08 | 上海交通大学 | 隐私政策中隐私信息提取方法、系统、终端及介质 |
CN113535936B (zh) * | 2021-06-21 | 2024-02-13 | 杭州初灵数据科技有限公司 | 一种基于深度学习的规章制度检索方法及系统 |
CN113392634B (zh) * | 2021-07-06 | 2024-07-26 | 河南大学 | 一种检测需求说明文档中条件不完整性的方法 |
CN113536772A (zh) * | 2021-07-15 | 2021-10-22 | 浙江诺诺网络科技有限公司 | 一种文本处理方法、装置、设备及存储介质 |
CN117332788B (zh) * | 2023-11-30 | 2024-03-01 | 山东同其万疆科技创新有限公司 | 一种基于英语口语文本的语义分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095737A (zh) * | 2016-06-07 | 2016-11-09 | 杭州凡闻科技有限公司 | 文档相似度计算方法及相似文档全网检索跟踪方法 |
CN108255813A (zh) * | 2018-01-23 | 2018-07-06 | 重庆邮电大学 | 一种基于词频-逆文档与crf的文本匹配方法 |
CN108363816A (zh) * | 2018-03-21 | 2018-08-03 | 北京理工大学 | 基于句义结构模型的开放式实体关系抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170139899A1 (en) * | 2015-11-18 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Keyword extraction method and electronic device |
-
2018
- 2018-08-31 CN CN201811012430.XA patent/CN109271626B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095737A (zh) * | 2016-06-07 | 2016-11-09 | 杭州凡闻科技有限公司 | 文档相似度计算方法及相似文档全网检索跟踪方法 |
CN108255813A (zh) * | 2018-01-23 | 2018-07-06 | 重庆邮电大学 | 一种基于词频-逆文档与crf的文本匹配方法 |
CN108363816A (zh) * | 2018-03-21 | 2018-08-03 | 北京理工大学 | 基于句义结构模型的开放式实体关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
"基于SAO结构语义挖掘的新兴技术演化轨迹研究";李欣 等;《科学学与科学技术管理》;20180110;19页右边栏-20页左边栏 * |
Also Published As
Publication number | Publication date |
---|---|
CN109271626A (zh) | 2019-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271626B (zh) | 文本语义分析方法 | |
CN111209412B (zh) | 一种循环更新迭代的期刊文献知识图谱构建方法 | |
US11068653B2 (en) | System and method for context-based abbreviation disambiguation using machine learning on synonyms of abbreviation expansions | |
Mohtaj et al. | Parsivar: A language processing toolkit for Persian | |
Gokul et al. | Sentence similarity detection in Malayalam language using cosine similarity | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
Taghizadeh et al. | Automatic wordnet development for low-resource languages using cross-lingual wsd | |
Jabbar et al. | An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach | |
Jonnalagadda et al. | NEMO: Extraction and normalization of organization names from PubMed affiliation strings | |
Puri et al. | An efficient Hindi text classification model using SVM | |
Warjri et al. | Identification of pos tag for khasi language based on hidden markov model pos tagger | |
Cing et al. | Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language | |
Sankar et al. | Unsupervised approach to word sense disambiguation in Malayalam | |
Toral et al. | Linguistically-augmented perplexity-based data selection for language models | |
Abdurakhmonova et al. | Uzbek electronic corpus as a tool for linguistic analysis | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
Momtaz et al. | Graph-based Approach to Text Alignment for Plagiarism Detection in Persian Documents. | |
CN113963748A (zh) | 一种蛋白质知识图谱向量化方法 | |
Yaghoobzadeh et al. | ISO-TimeML event extraction in Persian text | |
Bounhas et al. | Arabic Domain Terminology Extraction: A Literature Review: (Short Paper) | |
Maulud et al. | Towards a Complete Kurdish NLP Pipeline: Challenges and Opportunities | |
Özateş et al. | A Hybrid Approach to Dependency Parsing: Combining Rules and Morphology with Deep Learning | |
Gupta et al. | Identification and extraction of multiword expressions from Hindi & Urdu language in natural language processing | |
Angle et al. | Kannada morpheme segmentation using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |