CN105160046A

CN105160046A - 基于文本的数据检索方法

Info

Publication number: CN105160046A
Application number: CN201510719685.XA
Authority: CN
Inventors: 李垚霖
Original assignee: Chengdu Boruide Science & Technology Co Ltd
Current assignee: Chengdu Boruide Science & Technology Co Ltd
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2015-12-16

Abstract

本发明提供了一种基于文本的数据检索方法，该方法包括：利用实体知识库建立词语之间的语义关系，对文档内容进行语义标记，分析用户检索词的语义信息，并对该语义信息进行拓展；比较用户原始检索词及拓展后的检索结果集合的相似值。本发明提出了一种基于文本的数据检索方法，弥补传统数据检索的不足，从信息查全率和查准率方面改善数据检索的效率。

Description

基于文本的数据检索方法

技术领域

本发明涉及自然语言处理，特别涉及一种基于文本的数据检索方法。

背景技术

随着互联网技术的快速发展，当今社会已进入信息时代，尤其是当前金融领域大数据背景下网络文本信息文档的数量越来越庞大。网络信息文本文档随之呈现出更加复杂的特性，暴露出一些亟待解决的问题。然而，传统金融领域搜索引擎面对文本字符串匹配的语法层面，缺乏针对信息表示及处理和理解的语义级分析，即信息是丰富的，而知识却是贫乏的，所以依赖传统的数据检索方式已很难满足越来越高的金融类用户的需求。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种基于文本的数据检索方法，包括：

利用实体知识库建立词语之间的语义关系，对文档内容进行语义标记，分析用户检索词的语义信息，并对该语义信息进行拓展；比较用户原始检索词及拓展后的检索结果集合的相似值。

优选地，所述对语义信息进行拓展，包括以下步骤：

首先将实体概念描述为F＝(U,T,J,Y)，其中U＝{u₁,u₂,...,u_|U|}表示使用词语管理文本文档的用户，并且每个用户有唯一的ID号标识；T＝{t₁,t₂,...,t_|T|}表示集合中用户使用过的词语，该词语为任意的字符串，J＝{i₁,i₂,...,i_|J|}表示所有领域相关文本文档，其内容取决于用户标记集合的类型，用户标记集合由用户、词语、文档三个要素组成，即用(U,T,J)进行描述；表示三元关系，其中(u,t,i)元素描述用户使用词语t标记收藏的文本文档i；F(u,i)＝{t∈T|(u,t,i)∈Y}描述用户使用一组词语定义一个文本文档，其中u∈U,i∈J；用二元组构建主实体BO＝(C，R)，其中C＝{c₁,c₂,...,C_|c|}表示概念集合，所述概念表示为c＝(id,syn,phase,kind)，id是概念的唯一标识，syn是同义词集合，phase是描述概念的短语，kind是将概念所分类的词类；R＝{r₁,r₂,...,r_|R|}表示概念集合之间的关系；定义一组同义词集合S，每个文本文档w∈S用二元组表示为：(w,fq_c))，其中，fq_c(w)为文本文档w的出现频率；

对每个实体概念进行拓展,令e(c)＝{x|sim(x,c)>p∩y|(y≠x)且sim(y,c)<sim(x,c)}为实体概念集合，其中sim()为两个实体概念的相似值函数，p为预设相似值阈值；对实体概念进行语义拓展形成e(C₁)＝{C₁₁,C₁₂,...,C_1i,}，其中集合中每个元素或为空，或sim(C_1k,C₁)>p，且sim(C_1k,C₁)<sim(C_1k,C_m)；即基于关联相似值的计算来拓展单个实体概念，选择相似值大于给定阈值p的实体概念，并且被选取的实体概念同其他用户实体概念之间的相似值，比该被选取实体概念同当前单个实体概念之间的相似值小；

对用户实体概念集合的元素进行拓展，将每个概念元素拓展为一个拓展集合e，可分别从每个e中进行实体概念的选取，构建实体概念检索集合，并描述为：

f_c＝{f₁,f₂,...f_n}

其中，f₁在e(C₁)中选取，f_n在e(C_n)中选取；将所有实体概念检索集合描述为，FC(C)＝{(F₁,F₂,...F_n)|F₁∈e(C₁),...F_n∈e(C_n)}

每个实体概念集合f_c与用户输入的未拓展的实体概念集合C的相似值由下式计算：

{sim}_{s e m} (f_{c}, C) = \frac{Σ_{i = 1}^{M a x (| f_{c} |, | C |)} s i m (f_{i}, c_{i}) + θ}{M a x (| f_{c} |, | C |) + θ}

其中，θ为调节参数；

令n为用户输入的未拓展的实体概念集合C中的元素个数，因此将sim_sem(f_c,C)描述为：

{sim}_{s e m} (f_{c}, C) = \frac{Σ_{i = 1}^{n} s i m (f_{i}, c_{i}) + θ}{n + θ}

其中，允许多个θ存在于每个实体概念拓展集合中；

对于拓展关键字，将原关键字集的幂集作为所有拓展的关键字集合所组成的集合，记为P(K)，其中的元素本身也是集合，若p为幂集P(K)中的元素，则p与关键字集合K之间的相似值计算方法为：

{sim}_{k e y} (p, K) = \frac{| p | + θ}{| K | + θ} .

本发明相比现有技术，具有以下优点：

本发明提出了一种基于文本的数据检索方法，弥补传统数据检索的不足，从信息查全率和查准率方面改善数据检索的效率。

附图说明

图1是根据本发明实施例的基于文本的数据检索方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种基于文本的数据检索方法。图1是根据本发明实施例的基于文本的数据检索方法流程图。本发明利用实体建立词语之间的语义关系，实现语义检索，通过语义中丰富的描述能力和强大的逻辑推理能力准确描述信息文本文档，构建一种能够实现语义级分析的检索方法。语义检索与传统基于关键字匹配的检索方式不同，因为语义检索基于信息理解的语义级对信息文本文档及用户提交的检索请求进行分析，语义检索方式对检索条件、信息组织以及检索结果均赋予了语义成分，可提高检索精度。

基于实体的语义数据检索，在于使文档进行语义描述，借助实体知识库完成对文档对象的语义标记，进而分析出文档对象的语义理解，及其用户检索词的语义信息，同时可实现实体检索词的语义拓展，最终完成理想检索结果的获取，具体检索过程为：

步骤1：构建并描述实体概念。描述实体概念，构建实体知识库。

步骤2：提取文档的特征并进行文本映射。借助实体概念描述及知识库构建和管理，对获取的文档进行语义标记及文本映射，对文档语义含义进行分析。

步骤3：制定实体概念拓展及检索语义拓展策略。在实体概念描述的基础上，对用户检索请求的语义信息进行分析，并对用户检索词进行语义拓展，检索系统完成对生成的备选检索词集的检索过程。

步骤4：进行实体概念相似值计算。依赖实体概念结构图，执行实体概念语义距离计算、实体概念结点深度计算及语义总体相似值计算，以此服务于检索结果排序过程。

步骤5：对检索系统的检索结果进行排序。基于关联相似值计算规则，完成用户原始检索词及检索系统返回检索结果的相似值比较，基于相似值对检索系统的检索结果进行排序并反馈给用户。

其中，实体及其分类体系作为数据文本文档语义表征的核心，可对文档描述给予指导。领域知识也作为检索拓展和检索结果排序的基本依据。因此，领域知识的构建和维护，如推理规则的构建和维护，离不开领域知识管理。文档的语义可通过标记进行语义分析，再借助文档特征提取技术，从实体词汇中获取实体概念，建立文档的语义特征域，完成文档库文档的自动标记，并完成标记和索引文档的非语义特征，由此生成文档索引库和元数据库。基于文档标记信息构建索引库，以此为依据，检索出能满足用户需求的文档信息。实现检索拓展及结果排序，就是以实体生成的实体词库为依据，完成用户检索输入文字的分词工作，将用户检索分成实体概念集合和非实体概念集合。然后，分别对这两个集合按相似值拓展，得到两个检索候选集合，借助关联相似值排序算法获得排序后的检索集合，最后，完成检索请求到索引库及检索库的提交环节，将检索结果按检索请求的相似值排序后，将结果推送给用户。

本发明将实体概念描述为：F＝(U,T,J,Y)，其中，U＝{u₁,u₂,...,u_|U|}表示用户，描述使用词语管理文本文档的用户，并且每个用户有唯一的ID号标识。T＝{t₁,t₂,...,t_|T|}表示词语，描述集合中用户使用过的词语，词语可以是任意的字符串(单词或短语)，现将词语表示为一组词语序列，t＝{term₁,term₂,...,term_m}，t∈T，上述公式描述词语并映射成一组术语，术语可以是任意单词。J＝{i₁,i₂,...,i_|J|}表示文本文档，描述所有领域相关文档，其内容取决于用户标记集合的类型，用户标记集合由用户、词语、文档三个要素组成，即用(U,T,J)进行描述。表示三元关系，其中(u,t,i)元素描述用户使用词语t标记收藏的文本文档i。F(u,i)＝{t∈T|(u,t,i)∈Y}描述用户使用一组词语定义一个文本文档，其中u∈U,i∈J。

为了理解用户词语含义及词语之间的关系，构建主实体，用二元组进行描述：BO＝(C，R)，其中C＝{c₁,c₂,...,C_|c|}表示概念集合，概念表示为c＝(id,syn,phase,kind)，id是概念的唯一标识，syn是同义词集合，包含了概念的同义术语集合，phase是描述概念的短语，kind是将概念所分类的词类；R＝{r₁,r₂,...,r_|R|}表示概念集合之间的关系。现定义为一组同义词集合S，文本文档w∈S，每个文本文档w用二元组表示为：(w,fq_c))，其中，fq_c(w)为文本文档w的出现频率。

一个词语可以映射成一个或多个概念，也有可能只有部分词语可以映射成一个或多个概念，本发明利用以下几种文本映射方法。

直接映射：描述词语到概念的映射，即将每个词语映射到实体中的概念，可表示为：TC：对于所有t∈T，有T→2℃其中，概念集合中的每个t都是syn中的一个文本文档，描述词语到概念的直接映射。

部分映射：当词语不能直接映射时，从开始到结束的时间，可按如下步骤完成部分映射。步骤1：将短语逐步缩短成一个词。步骤2：基于语法，从短语的左边开始，尝试在哪个阶段可以映射缩短短语，然后从右边进行完善修改。

文档映射：首先设置用于描述词语和概念之间映射强度的矩阵：DC：[t_i,t_j]_m×n，其中，m＝|T|即词语数量,n＝|C|即概念数量。在映射过程中将产生初始矩阵，初始矩阵的映射强度是相关联的syn文本文档单词频率：

D C : [t_{i}, c_{j}] = \{\begin{matrix} {fq}_{c_{j}} (t_{i}) & c_{j} &Element; T C (t_{i}) \\ 0 \end{matrix}

映射结束后，初始矩阵DC的值表示词库中t_i和c_j的映射强度。

进一步地，本发明的实体概念拓展步骤如下。

步骤1:对每个实体概念进行拓展。

令e(c)＝{x|sim(x,c)>p∩y|(y≠x)且sim(y,c)<sim(x,c)}为实体概念集合，sim()为两个实体概念的相似值函数，其中p预设相似值阈值。如果对实体概念进行语义拓展可形成e(C₁)＝{C₁₁,C₁₂,...,C_1i,}，其中集合中每个元素或为空，或sim(C_1k,C₁)>p，且sim(C_1k,C₁)<sim(C_1k,C_m)。

也就是说，可基于关联相似值的计算来拓展单个实体概念，选择相似值大于给定阈值p的实体概念，并且被选取的实体概念同其他用户实体概念之间的相似值，比该被选取实体概念同当前单个实体概念之间的相似值小。

步骤2:构建实体概念检索集合。对用户实体概念集合的元素进行拓展，其中的每个概念元素都可拓展为一个拓展集合e，可分别从每个e中进行实体概念的选取，构建实体概念检索集合，检索实体概念集合的成员就是从每个实体概念拓展集合中选取的概念，检索实体概念集合描述为：

f_c＝{f₁,f₂,...f_n}

其中，f₁在e(C₁)中选取，f_n在e(C_n)中选取。所有实体概念检索集合可描述为，FC(C){(F₁,F₂,...F_n)|F₁∈e(C₁),...F_n∈e(C_n)}

每个实体概念集合f_c与用户输入的未拓展的实体概念集合C的相似值可由下式计算：

{sim}_{s e m} (f_{c}, C) = \frac{Σ_{i = 1}^{M a x (| f_{c} |, | C |)} s i m (f_{i}, c_{i}) + θ}{M a x (| f_{c} |, | C |) + θ}

其中，θ为调节参数。

令n为用户输入的未拓展的实体概念集合C中的元素个数，所以sim_sem(f_c,C)可描述为：

{sim}_{s e m} (f_{c}, C) = \frac{Σ_{i = 1}^{n} s i m (f_{i}, c_{i}) + θ}{n + θ}

其中，允许多个θ存在于每个实体概念拓展集合中。

对于关键字的拓展，因为关键字不是实体概念，所有拓展的集合所组成的集合为原关键字集的幂集，记为P(K)，其中的元素本身也是集合，若p为幂集P(K)中的元素，则p与K之间的相似值计算方法为：

{sim}_{k e y} (p, K) = \frac{| p | + θ}{| K | + θ} .

实体可描述特定领域中的概念及其关系，并可形成实体概念结构图，该实体图可计算实体概念相似值，实体概念结构图可看作为带有根结点的有向无环图，实体概念用图中的结点进行表示，概念之间的关系通过有向边进行表示，且该实体概念结构图具有树型结构的层次结构特性，及有向边和多重继承的特性。具体步骤如下：

步骤1：实体概念语义距离的计算。

基于实体概念图，实体概念的语义距离表现为连接两个概念结点的有向边的数量，记为d(C_a,C_b)。实体概念语义距离与实体概念语义相似值之间的关系为：两实体概念语义之间的距离越大，则这两个实体概念之间的相似值越小。

步骤2：实体概念父结点深度的计算。

基于实体概念所体现的层次结构特点，对实体概念结点进行自顶向下的组织，及由大到小的分类，依据实体概念最近共同父结点所在层次，可知其层次越深，实体概念分类越细，从其父结点继承的语义信息就越多，其共同语义信息就越多，即这两个实体概念间的相似值就越大。现用depth(parent(C_a,C_b))描述两概念的最近共同父结点深度，parent(C_a,C_b)表示两概念最近共同父结点。

步骤3：计算语义重叠度。实体概念之间的语义重叠度计算可依据两实体概念间所包含的相同父结点个数来完成，但如果同时对实体概念语义距离和实体概念语义重叠度加以考虑，则存在重复计算的可能性，因为实体概念语义距离中隐含着实体概念语义重叠度信息，所以可基于实体概念语义距离和共同父结点在实体概念结构图中的深度，计算出实体概念相似值，令两实体概念a、b，则a、b的语义相似值可通过两者的语义距离和共同父结点的深度对相似值影响的加权归一化进行表示，计算如下：

s i m (C_{a}, C_{b}) = α \frac{k}{d (c_{a}, c_{b}) + k} + β \frac{d e p t h (p a r e n t (c_{a}, c_{b}))}{\max d e p t h}

其中，α为语义距离加权值，β表示共同父结点的加权值，且满足α+β＝1，语义距离决定的相似值可通过调节参数k进行调节，表示实体概念树的最大深度。

步骤4：实体概念总体相似值计算。

如果对用户检索词集中的实体概念进行语义拓展，可生成检索语义拓展集合，记为FC(C)，如果对用户检索词集中的非实体概念的关键字集进行拓展，可生成关键字集的幂集，记为P(K)，现从FC(C)中取一元素，记为f_c，该元素是一个拓展概念集合，再从P(K)中取一元素，记为p，该元素为一个拓展关键字集，便可形成一个提交给检索系统的检索请求，表示为(f_c，p)，令用户检索词集为(C，K)，则通过(C，K)和(f_c，p)相似值的计算，可得到用户检索词集和检索结果的相似值。基于拓展关键字集相似值、拓展实体概念集合相似值、分类概念集合相似值，可计算出总体相似值，数学描述如下：

SIM(f_c,p,C,K)＝λ₁×sim_sem(f_c，C)+λ₂×sim_key(p，K)

其中，λ₁，λ₂为调节参数，λ₁代表实体概念集合相似值与总体相似值的比值，λ₂代表关键字集相似值与总体相似值的比值，且λ₁+λ₂＝1。

综上所述，本发明提出了一种基于文本的数据检索方法，弥补传统数据检索的不足，从信息查全率和查准率方面改善数据检索的效率。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于文本的数据检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对语义信息进行拓展，包括以下步骤：

f_c＝{f₁,f₂,...f_n}

{sim}_{s e m} (f_{c}, C) = \frac{Σ_{i = 1}^{M a x (| f_{c} |, | C |)} s i m (f_{i}, c_{i}) + θ}{M a x (| f_{c} |, | C |) + θ}

其中，θ为调节参数；

{sim}_{s e m} (f_{c}, C) = \frac{Σ_{i = 1}^{n} s i m (f_{i}, c_{i}) + θ}{n + θ}

其中，允许多个θ存在于每个实体概念拓展集合中；

{sim}_{k e y} (p, K) = \frac{| p | + θ}{| K | + θ} .