CN107423348A

CN107423348A - 一种基于关键词的精确检索方法

Info

Publication number: CN107423348A
Application number: CN201710349928.4A
Authority: CN
Inventors: 向敏明
Original assignee: Dongguan Huarui Electronic Technology Co Ltd
Current assignee: Dongguan Huarui Electronic Technology Co Ltd
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2017-12-01

Abstract

本发明公开了一种基于关键词的精确检索方法，接收用户输入的至少一个关键词，并将所述关键词作为第一词语；获取待检索信息库中文章的名称与摘要的文字信息，并对所述文字信息中文字进行分词，将分词后得到的词语作为第二词语；计算所述第一词语与所述第二词语之间的词语相似度；根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。本发明中，通过计算关键词与文章中文字信息所含词语之间的词语相似度，实现关键词检索，且所述词语相似度是通过进行数据匹配时要对词语进行拆分，形成概念集合的基础上计算得到的，因此概念集合中的概念可以最大程度的涵盖词语的本质含义，所以可以有效的提高检索的精确度。

Description

一种基于关键词的精确检索方法

技术领域

本发明信息检索领域，尤其涉及一种基于关键词的精确检索方法。

背景技术

由于目前数据库中信息量较大，用户往往会面对需要从数据库中快速获取所需信息的需要，因此如果从大量的信息中快速检测中所需信息，是比较重要的研究方向。

在现在的网络通信或数据处理过程中，常常会产生对两个词语进行相似度匹配的需求。现有技术主要采用的匹配方式为字面含义的匹配，通过相同或近似的字来判断词语是否匹配，例如“接近”和“靠近”，由于都具有“近”这个字，系统会判断这两个词匹配度较高，但是，文字的内涵博大精深，仅仅依靠字面含义进行词语匹配经常容易出现错误，从而严重影响了检索的精确度。

因此，现有技术还有待进一步的改进。

发明内容

本发明提供了一种数据匹配方法。

一种基于关键词的精确检索方法，其中，所述方法包括：

接收用户输入的至少一个关键词，并将所述关键词作为第一词语；

获取待检索信息库中文章的名称与摘要的文字信息，并对所述文字信息中文字进行分词，将分词后得到的词语作为第二词语；

对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合，对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合；

计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度，所述第一概念为所述第一概念集合中的任一概念，所述第二概念为所述第二概念集合中的任一概念；

将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度；

根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功；

若匹配成功，则将含有对应所述第一词语的文章进行显示。

所述的基于关键词的精确检索方法，其中，在上述步骤中，还包括：

将每个关键词作为第一词语；

将文字信息分词后得到的各个词语作为第二词语；

依次对每个第一词语进行概念拆分，得到与每个第一词语所对应的包含若干个概念的第一概念集合，

依次对每个所述第二词语进行概念拆分，得到与每个第二词语所对应的包含若干个概念的第二概念集合；

依次计算每个第一词语所属第一概念集合中的第一概念与每个第二词语所属第二概念集合中的第二概念之间的概念相似度，得到每个第一词语与任意一个第二词语之间的词语相似度。

所述的基于关键词的精确检索方法，其中，所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括：

计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度；

计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度，所述第二独立义原为语义表达式中除所述第一独立义原以外的所有其他独立义原；

计算所述第一概念的关系义原与第二概念的关系义原之间的第三相似度；

计算所述第一概念的符号义原与第二概念的符号义原之间的第四相似度；

根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度。

所述的基于关键词的精确检索方法，其中，所述计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度包括：

按照如下公式计算所述第一相似度Sim₁(V₁,V₂)：

其中，所述(d+α)表示两个义原，d是和在义原层次体系中的路径长度，α为常数参数。

所述的基于关键词的精确检索方法，其中，计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度包括：

1)将第一概念与第二概念的语义表达式的所有独立义原任意配对，计算两两独立义原相似度；

2)将相似度取值最大的一对归为一组；

3)对剩余的独立义原两两执行步骤2)，直至所有独立义原都完成分组；

4)对各组的相似度计算平均值作为所述第二相似度。

所述的基于关键词的精确检索方法，其中，所述根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度包括：

按照如下公式计算所述概念相似度Sim(S_i,T_j)：

所述的基于关键词的精确检索方法，其中，所述将含有所述第一词语的文章进行显示的步骤中包括：

计算每篇文章的名称和摘要所含全部第二词语与全部第一词语之间词语相似度的总和，并按照所述词语相似度总和的高低对含有第一词语的文章进行排序，并生成检索结果。

按照计算得到的词语相似度高低对与含有相对应第二词语的文章进行排序，并生成检索结果。

所述的基于关键词的精确检索方法，其中，对所述文字信息中的文字进行分词后，还包括步骤：

对分词后得到的词语赋予词语编码，建立所述词语编码与词语所属文章编码之间的索引列表；

所述将含有所述第一词语的文章进行显示的步骤中包括：

通过所述索引列表查找与所述第二词语所对应文章。

附图说明

图1为本发明提供的基于关键词进行精确检索方法的步骤流程示意图。

具体实施方式

为了使本领域的技术人员更好的理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

请参阅图1，本发明所公开的一种基于关键词的精确检索方法步骤流程图，所述方法包括：

101、接收用户输入的至少一个关键词，并将所述关键词作为第一词语；

102、对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合，对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合；

103、计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度，所述第一概念为所述第一概念集合中的任一概念，所述第二概念为所述第二概念集合中的任一概念；

104、将计算得到的各概念相似度中的最大值最为所述第一词语与所述第二词语之间的词语相似度；

105、根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功；若匹配成功，则将含有对应所述第一词语的文章进行显示。

上述方法提供了一种基于关键词的检索方法，其针对关键词对待检索数据库中的文章名称和文章摘要进行包含的文字信息进行匹配，若匹配成功，则判定符合检索条件。上述方法中提供了一种基于词语本身概念描述相关的匹配方法，提供匹配准确性。

Hownet中，对实词的概念描述由以下三种形式的描述式组成：

(1)独立义原描述式：由“基本义原”或“(具体词)”表示；

(2)关系义原描述式：由“关系义原＝基本义原”或“关系义原＝(具体词)”或者“(关系义原＝具体词)”来表示，其中关系义原是指包含“EventRole| 动态角色”和“EventFeatures|动态属性”这两类的义原；

(3)符号义原描述式：由“关系符号基本义原”或者“关系符号(具体词)”表示，其中关系符号包括“#、％、$、*、+、&、@、？、！”，其各自代表的关系不再赘述。

在实际应用中，每一个概念由多个义原组成，义原是最基本的、不易于再分割的意义的最小单位。例如：“人”虽然是一个非常复杂的概念，它可以是多种属性的集合体，但也可以把它看作为一个义原。

所有的概念都可以分解成各种各样的义原。同时也应该有一个有限的义原集合，其中的义原组合成一个无限的概念集合。中文中的字(包括单纯词) 是有限的，并且它可以被用来表达各种各样的单纯的或复杂的概念，以及表达概念与概念之间、概念的属性与属性之间的关系。

通过对义原和概念的定义，就可以对两个词语的相似度进行计算，例如对于词语X₁和词语X₂，如果X₁有n个概念[S₁，S₂,…,S_n]，X₂有m个概念[T₁， T₂,…,T_m]，X₁和X₂的相似度Sim(X₁，X₂)为各个概念的相似度的最大值：

因此，为了计算得到X₁和X₂的相似度Sim(X₁，X₂)，则需要计算每两个概念之间的相似度。

计算两个概念之间的相似度则需要通过多个方面来综合计算：

(1)第一独立义原描述式：

因为所有的概念都最终归结于用义原来表示，所以义原的相似度计算是概念相似度的基础。由于所有的义原根据上下位关系构成树状的义原层次体系，可以简单的通过语义距离计算相似度。

用Sim₁(V₁，V₂)表示两个概念的这部分相似度，具体就是两个义原的相似度，具体计算公式如下：

其中(d+α)表示两个义原，d是和在义原层次体系中的路径长度。α是一个可调节的参数，在基于Hownet的词汇语义相似度计算方法中可以设定α的取值，例如：α＝0.5。

(2)其他独立义原描述式：语义表达式中除第一独立义原以外的所有其他独立义原，用Sim₂(V₁，V₂)表示两个概念的这部分相似度，具体计算步骤如下：

a、先把两个表达式的所有独立义原任意配对，计算两两义原相似度；

b、取值最大的一对归为一组；

c、对剩下的独立义原两两相似度执行第b步。如此反复，直到所有都完成分组。任何义原与空值的相似度定义为常数δ，例如：δ＝0.2；

d、最后求平均值。

(3)关系义原描述式：语义表达式中所有的关系义原，用Sim₃(V₁，V₂) 表示两个概念的这部分相似度，把关系义原相同的表达式分为一组，计算相似度，最后求平均值。

(4)符号义原描述式：语义表达式中所有的符号义原，用Sim₄(V₁，V₂) 表示两个概念的这部分相似度，把关系符号相同的表达式分为一组，计算相似度，最后求平均值。

综上所述，两个概念的相似度计算方法如公式(3)所示。

本发明所提供的方法通过上述的相似度计算方法，得到第一词语与第二词语的词语相似度，从而实现两个词语的匹配。

由于在具体实施时，关键词可能为多个，则设置每个关键词均作为第一词语，依次对每个关键词进行拆分，得到每个关键词相对应的第一概念集合。

由于待检数据库中的分词也为多个分词，因此依次对每个所述第二词语进行概念拆分，得到与每个第二词语所对应的包含若干个概念的第二概念集合；

当计算出每个第一词语与每个第二词语之间的词语相似度后，判断各个第一词语与任意一个第二词语之间的词语相似度是否超出预设相似度阈值，若有超出，则判定词语相似度超出预设相似度阈值所对应的文章为所需要的文章，将该文章进行输出显示。

为了更好的对符合检索结果的文章进行显示，在对所述文字信息中的文字进行分词后，还包括步骤：

所述将含有所述第一词语的文章进行显示的步骤中包括：

通过所述索引列表查找与所述第二词语所对应文章。

本步骤建立索引列表，实现从第二词语与其所对应文章的关系链接，从而可以快速的从第二词语检索出其所对应文章，实现文章的快速提取和显示。

可以想到的是，在将含有所述第一词语的文章进行显示的步骤中可以含有以下两种生成检索结果的方式：

第一种，计算每篇文章的名称和摘要所含全部第二词语与全部第一词语之间词语相似度的总和，并按照所述词语相似度总和的高低对含有第一词语的文章进行排序，并生成检索结果。

上述方式的文章排序综合考虑全部关键词的词语相似度总和，因此排列靠前的显示文章与所要检索出的结果更符合。

第二中，按照计算得到的词语相似度高低对与含有相对应第二词语的文章进行排序，并生成检索结果。

上述方式的文章排序为对每个关键词搜索出的文章，因此可能其排序与第一种方式稍有差别，虽然两种都为精确检测，但是第一种方式更为注重全体的相关度，第二种方式更注重有关键词的匹配成功度，因此侧重点不同，各有利弊。

本发明中，在进行第一词语与第二词语的数据匹配时要对词语进行拆分，形成概念集合，而概念集合中的概念可以最大程度的涵盖词语的本质含义，所以从概念的粒度对词语进行匹配，可以有效的提高匹配的精确度，因此可以取得较佳的检索效果。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于关键词的精确检索方法，其特征在于，所述方法包括：

若匹配成功，则将含有对应所述第一词语的文章进行显示。

2.根据权利要求1所述的基于关键词的精确检索方法，其特征在于，在上述步骤中，还包括：

将每个关键词作为第一词语；

将文字信息分词后得到的各个词语作为第二词语；

3.根据权利要求1所述的基于关键词的精确检索方法，其特征在于，所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括：

4.根据权利要求2所述的基于关键词的精确检索方法，其特征在于，所述计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度包括：

按照如下公式计算所述第一相似度Sim₁(V₁,V₂)：

<mrow> <msub> <mi>Sim</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>V</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mi>&alpha;</mi> <mrow> <mi>d</mi> <mo>+</mo> <mi>&alpha;</mi> </mrow> </mfrac> <mo>;</mo> </mrow>

5.根据权利要求4所述的基于关键词的精确检索方法，其特征在于，计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度包括：

2)将相似度取值最大的一对归为一组；

4)对各组的相似度计算平均值作为所述第二相似度。

6.根据权利要求5所述的基于关键词的精确检索方法，其特征在于，所述根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度包括：

按照如下公式计算所述概念相似度Sim(S_i,T_j)：

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>T</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>4</mn> </munderover> <msub> <mi>&beta;</mi> <mi>x</mi> </msub> <munderover> <mo>&Pi;</mo> <mrow> <mi>y</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>x</mi> </munderover> <msub> <mi>Sim</mi> <mi>y</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>V</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

7.根据权利要求2所述的基于关键词的精确检索方法，其特征在于，所述将含有所述第一词语的文章进行显示的步骤中包括：

8.根据权利要求2所述的基于关键词的精确检索方法，其特征在于，所述将含有所述第一词语的文章进行显示的步骤中包括：

9.根据权利要求5所述的基于关键词的精确检索方法，其特征在于，

对所述文字信息中的文字进行分词后，还包括步骤：

所述将含有所述第一词语的文章进行显示的步骤中包括：

通过所述索引列表查找与所述第二词语所对应文章。