CN113268569A - 基于语义的关联词查找方法及装置、电子设备、存储介质 - Google Patents
基于语义的关联词查找方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN113268569A CN113268569A CN202110810574.5A CN202110810574A CN113268569A CN 113268569 A CN113268569 A CN 113268569A CN 202110810574 A CN202110810574 A CN 202110810574A CN 113268569 A CN113268569 A CN 113268569A
- Authority
- CN
- China
- Prior art keywords
- entity
- noun
- word
- nouns
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于语义的关联词查找方法及装置,属于计算机技术领域。本发明的基于语义的关联词查找方法,包括:从互联网数据库中获取文本文档;利用深度学习实体识别模型识别文本文档以得到实体名词及实体名词位置;根据实体名词位置确定的实体名词所在句子上下文的文本计算实体名词的词向量;对实体名词进行构词分析以确定实体名词的实体类型;根据实体名词的词向量、实体名词的实体类型在词向量库中进行相似检索以查找相似的实体名词。本发明的基于语义的关联词查找方法解决了一词多义的问题,其不依赖于已有词库、能够处理未知的实体名词。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种基于语义的关联词查找方法及装置、电子设备、存储介质。
背景技术
自然语言文本作为互联网数据的主要承载形式,其包括人工编写的新闻报告、说明分析等,相较于结构化的数据,其存在的数量更多、包含的信息更多,而实体往往作为与现实物体、概念等对应的词语,是查询、分析的核心。因此,围绕实体名词处理是现代数据处理的重要方法,通过推荐与实体名词语义相关的词语可以有效地为用户提供数据漫游的能力,同时在建立以实体为核心的知识库中,为了实现知识增值的自动化,解决实体的歧义与多义问题也是必要的工作之一。 但是实体名词存在歧义与多义的问题,名称歧义是指一个词语指代不同的实体(如“苹果”可以指代一种水果,也可以指代一个公司的名称),多名称是指一个实体可能有多种文本表述。现有的实体名词关联方法均存在一些不足,例如:基于词典匹配的方法虽然可以解决一词多义的问题,但是依赖大量的人工标注,并且对于未登录新词无法处理;基于文本生成方式查找近义词,无法生成已有词之外的词,无法处理未登录新词;基于候选词分类的方法需要首先产生候选词。因此,急需一种可以不依赖于已有词库、能够处理未知的实体名词的实体名词关联方法。
发明内容
本发明意在提供一种基于语义的关联词查找方法及装置、电子设备、存储介质,以解决一词多义的问题,其不依赖于已有词库、能够处理未知的实体名词,本发明要解决的技术问题通过以下技术方案来实现:
本发明提供了一种基于语义的关联词查找方法,包括:
从互联网数据库中获取文本文档;
利用深度学习实体识别模型识别所述文本文档以得到实体名词及实体名词位置;
根据所述实体名词位置确定的所述实体名词所在句子上下文的文本计算所述实体名词的词向量;
对所述实体名词进行构词分析以确定所述实体名词的实体类型;
根据所述实体名词的词向量、所述实体名词的实体类型在词向量库中进行相似检索以查找相似的实体名词。
优选地,所述根据所述实体名词位置确定的所述实体名词所在句子上下文的文本计算所述实体名词的词向量的步骤包括:
根据所述实体名词位置定位所述实体名词所在句子上下文的文本;
计算所述实体名词所在句子上下文的文本相似程度以确定所述实体名词的描述文本;
根据所述描述文本计算所述实体名词的词向量。
优选地,所述根据所述实体名词的词向量、所述实体名词的实体类型在词向量库中进行相似检索以查找相似的实体名词的步骤包括:
构建所述词向量库的Kd树存储结构;
根据所述实体名词的词向量、所述实体名词的实体类型在所述Kd树存储结构中查找最邻近点以确定相似的实体名词。
优选地,根据所述实体名词的词向量、所述实体名词的实体类型在词向量库中进行相似检索以查找相似的实体名词的步骤之后包括:
如果在词向量库中未查找到相似的实体名词,则将所述实体名词作为新词加入词典中;
如果在词向量库中查找到一个或多个相似的实体名词,则将所述实体名词与查找到的一个或多个相似的实体名词进行关联。
优选地,所述深度学习实体识别模型为基于条件随机场的实体识别模型或基于全局指针的实体识别模型。
优选地,所述深度学习实体识别模型为基于全局指针的BERT与BiLSTM实体识别模型。
另一方面,本发明还提供了一种基于语义的关联词查找装置,包括:
文本获取模块,被配置为从互联网数据库中获取待处理文本文档;
实体识别模块,被配置为利用深度学习实体识别模型识别所述待处理文本文档以得到实体名词及实体名词位置;
词向量计算模块,被配置为根据所述实体名词位置确定的所述实体名词所在句子上下文的文本计算所述实体名词的词向量;
构词分析模块,被配置为对所述实体名词进行构词分析以确定所述实体名词的实体类型;
相似检索模块,被配置为根据所述实体名词的词向量、所述实体名词的实体类型在词向量库中进行相似检索以查找相似的实体名词。
优选地,所述词向量计算模块包括:
文本定位单元,被配置为根据所述实体名词位置定位所述实体名词所在句子上下文的文本;
相似程度计算单元,被配置为计算所述实体名词所在句子上下文的文本相似程度以确定所述实体名词的描述文本;
词向量计算单元,被配置为根据所述描述文本计算所述实体名词的词向量。
再一方面,本发明还提供了一种电子设备,包括:处理器和存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述所述的基于语义的关联词查找方法。
又一方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的基于语义的关联词查找方法。
本发明的基于语义的关联词查找方法首先通过深度学习实体识别模型识别文本文档中的实体名词及位置,之后根据实体名词的位置定位该实体名词所在句子及其上下文的文本并计算词向量以获取实体名词的主要语义特征,同时利用构词法分析该实体名词本身获取实体名词的所属类型,最后综合实体名词的词向量和类型在词向量库中查找相似的实体名词。本发明基于语义的关联词查找方法可以不依赖于已有词库、能够处理未知的实体名词,仅仅需要输入原始文本,即可自动完成实体名词的推荐关联。
附图说明
图1为本发明的基于语义的关联词查找方法的一些实施例的流程示意图;
图2为本发明的基于语义的关联词查找方法的步骤300一些实施例的流程示意图;
图3为本发明的基于语义的关联词查找方法的步骤500一些实施例的流程示意图;
图4为本发明的基于语义的关联词查找装置的一些实施例的结构框图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
术语解释:
语义(senmatic):语言所蕴含的意义就是语义。简单的说,符号是语言的载体。符号本身没有任何意义,只有被赋予含义的符号才能够被使用,这时候语言就转化为了信息,而语言的含义就是语义。 语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。 语义具有领域性特征,不属于任何领域的语义是不存在的。而语义异构则是指对同一事物在解释上所存在差异,也就体现为同一事物在不同领域中理解的不同。对于计算机科学来说,语义一般是指用户对于那些用来描述现实世界的计算机表示(即符号)的解释,也就是用户用来联系计算机表示和现实世界的途径。 语义是对数据符号的解释,而语法则是对于这些符号之间的组织规则和结构关系的定义。对于信息集成领域来说,数据往往是通过模式(对于模式不存在或者隐含的非结构化和半结构化数据,往往需要在集成前定义出它们的模式)来组织的,数据的访问也是通过作用于模式来获得的,这时语义就是指模式元素(例如类、属性、约束等等)的含义,而语法则是模式元素的结构。
命名实体(named entity):所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体。
参见图1所示,本发明实施例提供了一种基于语义的关联词查找方法,包括:
步骤100:从互联网数据库中获取文本文档;
本步骤中的文本文档是指包含一段文字字符的文档。
步骤200:利用深度学习实体识别模型识别文本文档以得到实体名词及实体名词位置;
本步骤中通过NER实体识别模型识别实体,就是将文本中出现的人物名称、组织机构名称等实体物品的文字名称从一句话里面挑出来的过程,例如:句子“小明在北京大学的燕园看了中国男篮 的一场比赛”,通过NER模型将“小明 ”以PER,“北京大学”以ORG,“燕园”以LOC,“中国男篮”以ORG为类别分别挑了出来。
步骤300:根据实体名词位置确定的实体名词所在句子上下文的文本计算实体名词的词向量;
本步骤中根据实体名词所在句子上下文的文本计算该实体名词的词向量,即提取出该实体名词代表词语的主要语义特征。
步骤400:对实体名词进行构词分析以确定实体名词的实体类型;
本步骤中使用该实体名词本身,分析其构词法,如词语的前缀、后缀等,找到其所属的概念即实体类型。
步骤500:根据实体名词的词向量、实体名词的实体类型在词向量库中进行相似检索以查找相似的实体名词。
本发明实施例的基于语义的关联词查找方法首先通过深度学习实体识别模型识别文本文档中的实体名词及位置,之后根据实体名词的位置定位该实体名词所在句子及其上下文的文本并计算词向量以获取实体名词的主要语义特征,同时利用构词法分析该实体名词本身获取实体名词的所属类型,最后综合实体名词的词向量和类型在词向量库中查找相似的实体名词。本发明实施例的基于语义的关联词查找方法提供了一种可以不依赖于已有词库、能够处理未知的实体名词的实体名词关联方法,该方法仅仅需要输入原始文本,即可自动完成实体名词的推荐关联。
需要说明的是,构词分析是以一批种子模版为起点,匹配query得到一些候选概念,再基于得到的候选概念,去生成新的模版。新的模版应该既能匹配一定量的已有的概念,也能具有扩展性,匹配到一定量的新的概念,满足此条件的模版会被保留。如此循环往复,从而不断得到更多的候选概念以及匹配模版。比如,“十大XXX”是一个种子模板,我们可以用来抽取种子概念,通过这个模板,我们可以从query“十大省油的汽车”中得到概念“省油的汽车”,从query“十大手机游戏”中得到概念“手机游戏”,然后我们从包含这些概念的query中可以得到新的模板,比如,“哪款手机游戏性能更好”,从这个query中我们可以得到模板“哪款XXX性能更好”。另外,对于挖掘得到的模板需要进行质量控制,一个好的模板,应该既可以精确地抽取出现有的概念,也可以用来抽取新的概念。比如说,“XXX好不好”这个模板,包括了“省油的车好不好”和“每天跑步好不好”这两个query,但是,“每天跑步”并不是一个足够好的概念。因此,需要对模板进行过滤。过滤规则如下,同时满足两个条件的模板才会被保留下来。
在一些实施例中,参见图2所示,本发明的基于语义的关联词查找方法中步骤300包括:
步骤301:根据实体名词位置定位实体名词所在句子上下文的文本;
本步骤中先根据实体名词位置定位该实体名词所在句子,其中实体名词可能出现在文档中的多个位置,每个位置的句子及相关的上下文均需定位出来。
步骤302:计算实体名词所在句子上下文的文本相似程度以确定实体名词的描述文本;本步骤中利用上下文相似度计算获取代表实体名词的描述文本。
步骤303:根据描述文本计算实体名词的词向量。
需要说明的是,在做自然语言处理的过程中,我们经常会遇到需要找出相似语句的场景,或者找出句子的近似表达,这时就需要把类似的句子归到一起,即句子相似度计算。目前句子相似度计算常采用以下几种方法:
编辑距离计算(Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。例如有两个字符串:string和setting,如果我们想要把string转化为setting,需要这么两步:第一步,在s和t之间加入字符 e。第二步,把r替换成t。所以它们的编辑距离差就是2,这就对应着二者要进行转化所要改变(添加、替换、删除)的最小步数。
杰卡德系数计算(Jaccard index),用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。计算方法就是两个样本的交集除以并集得到的数值,当两个样本完全一致时,结果为1,当两个样本完全不同时,结果为 0。
TF计算,就是直接计算TF矩阵中两个向量的余弦相似度了,实际上就是求解两个向量夹角的余弦值,就是点乘积除以二者的模长,公式如下:
TFIDF计算,实际上就是在词频 TF 的基础上再加入IDF的信息,IDF称为逆文档频率。关于idf(t)应该这样认识:一个词语在文档集合中出现了n次,文档集合总数为N。idf(t)来源于信息论。那么每篇文档出现这个词语的概率为:n/N,所以这篇文档出现这个词语的信息量为:-log(n/N)。
BM25计算,通常用来作为搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。BM25算法的一般性公式如下:
其中,Q表示Query,qi表示Q解析之后的一个语素(对中文而言,我们可以把对Query的分词作为语素分析,每个词看成语素qi。);d表示一个搜索结果文档;Wi表示语素qi的权重;R(qi,d)表示语素qi与文档d的相关性得分。判断一个词与一个文档的相关性的权重,方法有多种,较常用的是IDF。
需要说明的是,词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络,单词共生矩阵的降维,概率模型,可解释的知识库方法,和术语的显式表示单词出现的背景。词向量模型是基于假设:衡量词之间的相似性,在于其相邻词汇是否相识,这是基于语言学的“距离相似性”原理。词汇和它的上下文构成一个象,当从语料库当中学习到相识或相近的象时,他们在语义上总是相识的。而典型的就是word2vec了,它可以分为CBOW(continuous bag-of-words 连续的词袋模型)和skip-gram两种。word2vec通过训练,可以把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度,因此word2vec输出的词向量是一个基础性的工作,比如聚类、同义词、词性分析等。还有一个word2vec被广泛使用的原因是其向量的加法组合和高效性。
在一些实施例中,参见图3所示,本发明的基于语义的关联词查找方法中步骤500包括:
步骤501:构建词向量库的Kd树存储结构;
在进行相似检索之前需要提前建立词向量库的Kd树存储结构,而在使用过程中,每执行一次查找就自动在Kd树中建立一个节点,从而壮大词向量库。
需要说明的是,本实施例中词向量库包含多个不同实体类型的子库,例如:组织机构子词库、人名子词库等。
步骤502:根据实体名词的词向量、实体名词的实体类型在Kd树存储结构中查找最邻近点以确定相似的实体名词。
本步骤中,首先根据实体名词的实体类型确定词向量库中的子库,之后通过Kd树索引快速检索。
本发明实施例中通过将词向量库构建成kd树索引方式可以加速检索,快速找到该实体名词的最邻近点进而确定相似的实体名词。
在一些实施例中,参见图1所示,本发明的基于语义的关联词查找方法中步骤500之后包括:
步骤601:如果在词向量库中未查找到相似的实体名词,则将实体名词作为新词加入词典中;
步骤602:如果在词向量库中查找到一个或多个相似的实体名词,则将实体名词与查找到的一个或多个相似的实体名词进行关联。
在一些实施例中,本发明的基于语义的关联词查找方法中深度学习实体识别模型为基于条件随机场的实体识别模型或基于全局指针的实体识别模型。
本实施例中实体识别可使用经典的模型进行实体识别工作,例如基于条件随机场的实体识别模型,但对于实体嵌套的情况,可以通过将CRF层替换为GlobalPointer即基于全局指针的实体识别模型以实现在命名实体的子字符串中定位另一个命名实体。GlobalPointer的设计,它利用全局归一化的思路来进行命名实体识别(NER),可以无差别地识别嵌套实体和非嵌套实体,在非嵌套(Flat NER)的情形下它能取得媲美 CRF 的效果,而在嵌套(Nested NER)情形它也有不错的效果。在实践上,它训练的时候不需要像 CRF 那样递归计算分母,预测的时候也不需要动态规划,是完全并行。
优选地,本发明实施例的基于语义的关联词查找方法中深度学习实体识别模型为基于全局指针的BERT与BiLSTM实体识别模型。
下面举一个具体的例子说明本发明实施例的基于语义的关联词查找方法的工作过程:
文本文档:如:“苹果公司(Apple Inc. )是美国一家高科技公司。由史蒂夫·乔布斯、斯蒂夫·盖瑞·沃兹尼亚克和罗纳德·杰拉尔德·韦恩(Ron Wayne)等人于1976年4月1日创立,并命名为美国苹果电脑公司(Apple Computer Inc.),2007年1月9日更名为苹果公司,总部位于加利福尼亚州的库比蒂诺。苹果公司1980年12月12日公开招股上市,2012年创下6235亿美元的市值记录,截至2014年6月,苹果公司已经连续三年成为全球市值最大公司。当地时间2020年8月19日,苹果公司市值首次突破2万亿美元。”
实体识别:识别到其中的实体“苹果公司”、“史蒂夫·乔布斯”、“加利福尼亚州”等,这里以“苹果公司”举例。
上下文相似计算:简单计算输入文档中的句子重复的词语比例,可以判断整个文档都是“苹果公司”相关的描述文字,因此计算词向量时都作为其上下文。
词向量计算:使用word2vec算法,利用“苹果公司”的上下文的词语作为神经网络的输入去尝试预测“苹果公司”词(CBOW)或利用“苹果公司”作为网络输入去预测其上下文,得到“苹果公司”的词向量;
构词分析:将“苹果公司”分词,分为“苹果”、“公司”,“公司”同通过类型关键词匹配可以得知“苹果公司”属于一个组织机构,因此在词向量库中下一步仅搜索组织机构相关词语;
Kd树相邻点查找:将“苹果公司”这个词的词向量放入词向量库的组织机构子词库中查找,找到与其向量最相近的一个词语,若举例低于一定阈值则将这两个词视为一个词,否则作为新词。
最后可以返回最相近的N个词语作为推荐关联词。
另一方面,参见图4所示,本发明实施例还提供了一种基于语义的关联词查找装置1,包括:
文本获取模块10,被配置为从互联网数据库中获取待处理文本文档;
实体识别模块20,被配置为利用深度学习实体识别模型识别待处理文本文档以得到实体名词及实体名词位置;
词向量计算模块30,被配置为根据实体名词位置确定的实体名词所在句子上下文的文本计算实体名词的词向量;
构词分析模块40,被配置为对实体名词进行构词分析以确定实体名词的实体类型;
相似检索模块50,被配置为根据实体名词的词向量、实体名词的实体类型在词向量库中进行相似检索以查找相似的实体名词。
在一些实施例中,参见图4所示,本发明的基于语义的关联词查找装置1中词向量计算模块30包括:
文本定位单元,被配置为根据实体名词位置定位实体名词所在句子上下文的文本;
相似程度计算单元,被配置为计算实体名词所在句子上下文的文本相似程度以确定实体名词的描述文本;
词向量计算单元,被配置为根据描述文本计算实体名词的词向量。
上述中基于语义的关联词查找装置各模块的具体细节已经在对应的基于语义的关联词查找方法中进行了详细的描述,因此此处不再赘述。
再一方面,本发明实施例提供了一种电子设备,包括:处理器和存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例所述的基于语义的关联词查找方法。
具体地,上述存储器和处理器能够为通用的存储器和处理器,这里不做具体限定,当处理器运行存储器存储的计算机可读指令时,能够执行上述实施例所述的基于语义的关联词查找方法。
又一方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例所述的基于语义的关联词查找方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,ROM)、随机存取器(randomaccessmemory,RAM)、磁盘或光盘等。
应该指出,上述详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请所述的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位,如旋转90度或处于其他方位,并且对这里所使用的空间相对描述作出相应解释。
在上面详细的说明中,参考了附图,附图形成本文的一部分。在附图中,类似的符号典型地确定类似的部件,除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下,其他实施方案可以被使用,并且可以作其他改变。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于语义的关联词查找方法,其特征在于,包括:
从互联网数据库中获取文本文档;
利用深度学习实体识别模型识别所述文本文档以得到实体名词及实体名词位置;
根据所述实体名词位置确定的所述实体名词所在句子上下文的文本计算所述实体名词的词向量;
对所述实体名词进行构词分析以确定所述实体名词的实体类型;
根据所述实体名词的词向量、所述实体名词的实体类型在词向量库中进行相似检索以查找相似的实体名词。
2.根据权利要求1所述的基于语义的关联词查找方法,其特征在于,所述根据所述实体名词位置确定的所述实体名词所在句子上下文的文本计算所述实体名词的词向量的步骤包括:
根据所述实体名词位置定位所述实体名词所在句子上下文的文本;
计算所述实体名词所在句子上下文的文本相似程度以确定所述实体名词的描述文本;
根据所述描述文本计算所述实体名词的词向量。
3.根据权利要求2所述的基于语义的关联词查找方法,其特征在于,所述根据所述实体名词的词向量、所述实体名词的实体类型在词向量库中进行相似检索以查找相似的实体名词的步骤包括:
构建所述词向量库的Kd树存储结构;
根据所述实体名词的词向量、所述实体名词的实体类型在所述Kd树存储结构中查找最邻近点以确定相似的实体名词。
4.根据权利要求3所述的基于语义的关联词查找方法,其特征在于,根据所述实体名词的词向量、所述实体名词的实体类型在词向量库中进行相似检索以查找相似的实体名词的步骤之后包括:
如果在词向量库中未查找到相似的实体名词,则将所述实体名词作为新词加入词典中;
如果在词向量库中查找到一个或多个相似的实体名词,则将所述实体名词与查找到的一个或多个相似的实体名词进行关联。
5.根据权利要求1所述的基于语义的关联词查找方法,其特征在于,所述深度学习实体识别模型为基于条件随机场的实体识别模型或基于全局指针的实体识别模型。
6.根据权利要求5所述的基于语义的关联词查找方法,其特征在于,所述深度学习实体识别模型为基于全局指针的BERT与BiLSTM实体识别模型。
7.一种基于语义的关联词查找装置,其特征在于,包括:
文本获取模块,被配置为从互联网数据库中获取待处理文本文档;
实体识别模块,被配置为利用深度学习实体识别模型识别所述待处理文本文档以得到实体名词及实体名词位置;
词向量计算模块,被配置为根据所述实体名词位置确定的所述实体名词所在句子上下文的文本计算所述实体名词的词向量;
构词分析模块,被配置为对所述实体名词进行构词分析以确定所述实体名词的实体类型;
相似检索模块,被配置为根据所述实体名词的词向量、所述实体名词的实体类型在词向量库中进行相似检索以查找相似的实体名词。
8.根据权利要求7所述的基于语义的关联词查找装置,其特征在于,所述词向量计算模块包括:
文本定位单元,被配置为根据所述实体名词位置定位所述实体名词所在句子上下文的文本;
相似程度计算单元,被配置为计算所述实体名词所在句子上下文的文本相似程度以确定所述实体名词的描述文本;
词向量计算单元,被配置为根据所述描述文本计算所述实体名词的词向量。
9.一种电子设备,包括:处理器和存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至6中任一项所述的基于语义的关联词查找方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于语义的关联词查找方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110810574.5A CN113268569B (zh) | 2021-07-19 | 2021-07-19 | 基于语义的关联词查找方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110810574.5A CN113268569B (zh) | 2021-07-19 | 2021-07-19 | 基于语义的关联词查找方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268569A true CN113268569A (zh) | 2021-08-17 |
CN113268569B CN113268569B (zh) | 2021-11-16 |
Family
ID=77236635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110810574.5A Active CN113268569B (zh) | 2021-07-19 | 2021-07-19 | 基于语义的关联词查找方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268569B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547301A (zh) * | 2022-02-21 | 2022-05-27 | 北京百度网讯科技有限公司 | 文档处理、识别模型训练方法、装置、设备及存储介质 |
CN114580422A (zh) * | 2022-03-14 | 2022-06-03 | 昆明理工大学 | 一种结合近邻分析的两阶段分类的命名实体识别方法 |
CN115270779A (zh) * | 2022-06-30 | 2022-11-01 | 山东大学齐鲁医院 | 一种溃疡性结肠炎结构化报告的生成方法及系统 |
CN116090466A (zh) * | 2022-12-16 | 2023-05-09 | 上海美嘉林软件科技股份有限公司 | 技术信息文档语义单元构建方法及系统 |
CN116089586A (zh) * | 2023-02-10 | 2023-05-09 | 百度在线网络技术(北京)有限公司 | 基于文本的问题生成方法及问题生成模型的训练方法 |
CN116306581A (zh) * | 2023-05-08 | 2023-06-23 | 中新宽维传媒科技有限公司 | 一种事件抽取方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN110347701A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 一种面向实体检索查询的目标类型标识方法 |
US20200065422A1 (en) * | 2018-08-24 | 2020-02-27 | Facebook, Inc. | Document Entity Linking on Online Social Networks |
CN112257422A (zh) * | 2020-10-22 | 2021-01-22 | 京东方科技集团股份有限公司 | 命名实体归一化处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-07-19 CN CN202110810574.5A patent/CN113268569B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
US20200065422A1 (en) * | 2018-08-24 | 2020-02-27 | Facebook, Inc. | Document Entity Linking on Online Social Networks |
CN110347701A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 一种面向实体检索查询的目标类型标识方法 |
CN112257422A (zh) * | 2020-10-22 | 2021-01-22 | 京东方科技集团股份有限公司 | 命名实体归一化处理方法、装置、电子设备及存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547301A (zh) * | 2022-02-21 | 2022-05-27 | 北京百度网讯科技有限公司 | 文档处理、识别模型训练方法、装置、设备及存储介质 |
CN114580422A (zh) * | 2022-03-14 | 2022-06-03 | 昆明理工大学 | 一种结合近邻分析的两阶段分类的命名实体识别方法 |
CN115270779A (zh) * | 2022-06-30 | 2022-11-01 | 山东大学齐鲁医院 | 一种溃疡性结肠炎结构化报告的生成方法及系统 |
CN115270779B (zh) * | 2022-06-30 | 2024-04-12 | 山东大学齐鲁医院 | 一种溃疡性结肠炎结构化报告的生成方法及系统 |
CN116090466A (zh) * | 2022-12-16 | 2023-05-09 | 上海美嘉林软件科技股份有限公司 | 技术信息文档语义单元构建方法及系统 |
CN116089586A (zh) * | 2023-02-10 | 2023-05-09 | 百度在线网络技术(北京)有限公司 | 基于文本的问题生成方法及问题生成模型的训练方法 |
CN116089586B (zh) * | 2023-02-10 | 2023-11-14 | 百度在线网络技术(北京)有限公司 | 基于文本的问题生成方法及问题生成模型的训练方法 |
CN116306581A (zh) * | 2023-05-08 | 2023-06-23 | 中新宽维传媒科技有限公司 | 一种事件抽取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113268569B (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113268569B (zh) | 基于语义的关联词查找方法及装置、电子设备、存储介质 | |
CN110399457B (zh) | 一种智能问答方法和系统 | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
US8751218B2 (en) | Indexing content at semantic level | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
CN108319583B (zh) | 从中文语料库提取知识的方法与系统 | |
JP5057474B2 (ja) | オブジェクト間の競合指標計算方法およびシステム | |
CN115186050B (zh) | 基于自然语言处理的选题推荐方法、系统及相关设备 | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
JP2011118689A (ja) | 検索方法及びシステム | |
CN111325018A (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
Jia et al. | A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth | |
Galvez et al. | Term conflation methods in information retrieval: Non‐linguistic and linguistic approaches | |
Afuan et al. | A new approach in query expansion methods for improving information retrieval | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
Araujo | How evolutionary algorithms are applied to statistical natural language processing | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Chahal et al. | An ontology based approach for finding semantic similarity between web documents | |
CN114610744A (zh) | 一种数据查询方法、装置及计算机可读存储介质 | |
CN114064855A (zh) | 一种基于变压器知识库的信息检索方法及系统 | |
Pertsas et al. | Ontology-driven information extraction from research publications | |
Brumer et al. | Predicting relevance scores for triples from type-like relations using neural embedding-the cabbage triple scorer at wsdm cup 2017 | |
Milić-Frayling | Text processing and information retrieval | |
Sanabila et al. | Automatic Wayang Ontology Construction using Relation Extraction from Free Text | |
Saneifar et al. | From terminology extraction to terminology validation: an approach adapted to log files |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |