CN101369265A

CN101369265A - 一种自动生成问题的语义模板的方法和系统

Info

Publication number: CN101369265A
Application number: CNA2008100561689A
Authority: CN
Inventors: 刘文印
Original assignee: BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Current assignee: BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Priority date: 2008-01-14
Filing date: 2008-01-14
Publication date: 2009-02-18

Abstract

本发明公开了一种自动生成问题的语义模板的方法和系统。方法包括：步骤一，识别自由文本形式的问题的基本结构；步骤二，从该基本结构中，选择需要进行泛化的词语；步骤三，在词语数据库中搜索被选择的词语的所有上位概念，将所述上位概念与一标签本体中的标签进行匹配，利用所述匹配成功的标签中的语义关键词为被选择词语进行语义标注。利用本发明可根据自由文本形式的问题得到对应的匹配程度高的语义模板，且该语义模板还可覆盖较多的结构相似及语义相关的问题，从而被众多用户提问时使用，结构化及语义化地积累问题和答案，为自动搜索问题和答案的过程提供较为准确且可适当扩展的搜索源。

Description

一种自动生成问题的语义模板的方法和系统

技术领域

本发明涉及利用计算机进行自然语言处理领域，特别是涉及一种自动生成问题的语义模板的方法和系统。

背景技术

利用高速发展的信息技术，用户可通过网络、数据库等渠道，获得越来越多的信息。但是，现有的仅通过搜索引擎输入检索词进行检索的方式，由于其检索到的非相关内容过多，用户的筛选工作量较大，检索命中率低。故而，现已出现交互问答系统等新的信息获取方式，用户可直接提出自由文本形式的问题，由系统承担在庞大的答案数据库中进行分类检索的工作。

因而，用户输入的自由文本形式的问题都需要首先转换为语义模板，即对自由文本形式的问题的各个语法结构组成单元进行归类以及标识，使得在后续的答案搜索过程中，可基于该语义模板，搜索语义相关的问题，从而得到最多最贴近的答案。

发明内容

本所欲解决的问题在于，为了实现上述目的，本发明提供了一种生成问题的语义模板的方法和系统，用以提供高质量的语义模板。

为实现上述目的，本发明提供了一种自动生成问题的语义模板的方法，包括：

步骤一，识别自由文本形式的问题的基本结构；

步骤二，从该基本结构中，选择需要进行泛化的词语；

步骤三，在词语数据库中搜索被选择的词语的所有上位概念，将所述上位概念与一标签本体中的标签进行匹配，利用所述匹配成功的标签中的语义关键词为被选择词语进行语义标注。

所述步骤一进一步包括：

通过检索该问题中的问题类型关键词获取该问题的问题类型；

获得带有名词和/或动词的基本结构；

对所述基本结构进行命名实体识别。

所述步骤二进一步包括：通过判断该基本结构中的词语的上位概念的信息熵，确定进行泛化的词语，其中，

H ({SC}_{j}) = - \underset{(T_{i} &Element; {SC}_{j})}{Σ} p (T_{i}) \log p (T_{i})

T_i：问题中第i个名词或动词；

SC_j：T_i的上位概念；

p(T_i)：T_i在拥有相同上位概念的单词中出现的概率；

H(SC_j)：SC_j的信息熵；

当SC_j的信息熵超过设定的阈值时，该动词或名词被选择作为进行泛化的词语。

所述标签本体包含与所述词语数据库中各层级概念对应的以树型结构组织在一起的标签。

本发明还公开了一种自动生成问题的语义模板的方法，包括：

步骤一，识别自由文本形式的问题的基本结构；

步骤二，在词语数据库中搜索该基本结构中的词语的所有上位概念，将所述上位概念与一标签本体中的标签进行匹配，利用所述匹配成功的标签中的语义关键词为所有词语进行语义标注；

步骤三，利用所述标签中的语义关键词，选择需要进行泛化的词语。

所述步骤一进一步包括：

获得带有名词和/或动词的基本结构；

对所述基本结构进行命名实体识别。

所述步骤三进一步包括：通过判断所述名词和/或动词的语义关键词的信息熵，确定进行泛化的词语，其中，

H ({SC}_{j}) = - \underset{(T_{i} &Element; {SC}_{j})}{Σ} p (T_{i}) \log p (T_{i})

T_i：问题中第i个名词或动词；

SC_j：T_i的语义关键词；

p(T_i)：T_i在同样以该语义关键词为上位概念的单词中出现的概率；

H(SC_j)：SC_j的信息熵；

本发明还公开了一种自动生成问题语义模板的系统，包括：

问题结构识别模块，用于识别自由文本形式的问题的基本结构；

泛化词语选择模块，用于在该问题的基本结构中选择需要进行泛化的词语；

语义匹配标注模块，用于在词语数据库中搜索该问题中的词语所有上位概念，将所述上位概念与一标签本体中的标签进行匹配，利用所述匹配成功的标签中的语义关键词为词语进行语义标注。

所述泛化词语选择模块通过判断该基本结构中的词语的上位概念的信息熵，确定进行泛化的词语，其中，

H ({SC}_{j}) = - \underset{(T_{i} &Element; {SC}_{j})}{Σ} p (T_{i}) \log p (T_{i})

T_i：问题中第i个名词或动词；

SC_j：T_i的上位概念；

p(T_i)：T_i在拥有相同上位概念的单词中出现的概率；

H(SC_j)：SC_j的信息熵；

利用本发明可根据自由文本形式的问题得到对应的匹配程度高的语义模板，且该语义模板还可覆盖较多的结构相似及语义相关的问题，从而被众多用户提问时使用，结构化及语义化地积累问题和答案，为自动搜索问题和答案的过程提供较为准确且可适当扩展的搜索源。

附图说明

图1为本发明的整体系统结构示意图；

图2为本发明的一个实施例的操作步骤流程图；

图3为本发明步骤201的分步骤流程图；

图4为本发明的一实施例的操作步骤流程图。

具体实施方式

以下配合实施例以及附图，详细描述本发明的技术特征。

本发明用于根据自由文本形式的问题，生成匹配程度较高的语义模板，以便于答案或结果的获取。本发明所述系统模块可设置于一交互问答系统、一查询系统或一搜索系统中。

如图1所示为本发明的整体系统结构示意图。

语义模板生成系统100包括问题结构识别模块110、泛化词语选择模块120、语义匹配标注模块130、词语数据库140、标签本体150。

所述问题结构识别模块110用于识别一自由文本形式的问题的基本结构，并针对该结构进行命名实体识别。所述基本结构即包括该问题的所有重要信息，如问题类型、所包含的名词、动词等组成单元。所述问题结构识别模块110在识别过程中可忽略停用词或无意义的词。

所述问题结构识别模块110中还包括一命名实体识别模块111。所述命名实体识别模块(NER)111是对自由文本形式的问题中的最小信息单元进行识别，包括人名、公司/组织名、地址、日期、时间、百分比、货币金额。

所述泛化词语选择模块120用于从识别出的词语中，选择进行泛化的词语。所述泛化，即通过确定该词语的最贴近的上位概念而覆盖更多与该词语近似的词语，进而可通过该问题关联到其他相近的问题。

所述词语数据库140，包括单词及其对应的语义信息，同时，所有词语按照其语义信息的关联程度或隶属关系，被划分为不同的层级。通过该词语数据库140的数据层级结构，可以查找到任意单词的同义词集和上位概念。

所述标签本体150，包含由词语数据库140中的所有概念中精选出的、以树型层次结构组织在一起的、可用于标注一般词语的语义的一些(语义)标签。该标签即对应各个上位概念的语义关键词。为方便用户更好地理解和应用，该上位概念的层级可只包含两级。所述标签本体150用于对名词、动词用合适的语义关键词进行标注。

所述语义匹配标注模块130用于在词语数据库140中查找词语的所有上位概念，并将找到的上位概念与标签本体150中的标签进行匹配，从而对该问题进行语义标注，生成语义模板。

请参阅图2为本发明的一个实施例的操作步骤流程图。

步骤201，问题结构识别模块110接收一以自由文本形式输入的问题，识别该问题的基本结构，并对该结构的组成部分进行命名实体识别。

其中，该步骤201具体包括如下三个分步骤，如图3所示：

步骤301，通过检索该问题中的问题类型关键词获取该问题的问题类型，加类型标签；

步骤302，获得带有名词和/或动词的基本结构；

步骤303，利用该命名实体识别模块111进行识别，加实体标签。

例如，用户输入一自由文本形式的问题“who is the mayor of Beijing？”问题结构识别模块110首先识别其中的问题类型关键词，所述问题类型关键词即what、when、who、where、why、whether等。该问题的问题类型关键词为“who”，并标记为“<Type:Who>”。随后，忽略其中的停用词“the”，找到名词“mayor”。之后，通过命名实体识别模块111识别出“Beijing”是位置(城市名)实体。识别过程完成，从而得到该问题的基本结构：“<Type:Who>is[Noun＝mayor]of[NE(location)＝Beij ing]？”。

请继续参阅图2所示。

步骤202，从步骤201确定名词或动词中，通过判断该名词或动词的上位概念的信息熵，选择进行泛化的词语。

该信息熵的计算方法为：

H ({SC}_{j}) = - \underset{(T_{i} &Element; {SC}_{j})}{Σ} p (T_{i}) \log p (T_{i}),

式中符号含义如下：

T_i：问题Q中第i个名词或动词。

SC_j：T_i的上位概念。

p(T_i)：T_i在拥有相同上位概念的单词中出现的概率，即Ti被其同义词替换的可能性。

H(SC_j)：SC_j的信息熵。

当信息熵超过某个预先设定的阈值δ时，该动词或名词可被选择作为被泛化的词语，而该上位概念将作为语义标注的候选者。

在本发明的一个实施例中，为方便大多数用户使用，用γ来限制被选择名词、动词的数目，以及用来生成问题模板的用户填充项的数目。当被选择的名词、动词数超过γ时，选择具有最佳信息熵的前γ个单词。

基于上述实例，问题结构识别模块110已经识别出名词“mayor”以及“Beijing”。继续上述实施例，在词语数据库140中查找或通过命名实体识别结果知道“Beijing”的上一级上位概念是“location\city”，通过词语数据库140还可知，“Washington”、“Boston”同样拥有该上位概念。通过事先收集的概率信息可知，“Washington”、“Boston”的概率分别为“0.00154”和“0.00308”，经过该公式的计算，于是得到“location\city”的信息熵为0.12757。预先设定的阈值δ可例如为0.05，可见该信息熵高于阈值，则“Beijing”一词可被用来进行泛化语义模板。

请继续参阅图2所示。

步骤203，在词语数据库140中查找被选择的名词、动词的所有的上位概念，并将该上位概念与标签本体中的标签进行匹配，利用所述匹配成功的标签中的语义关键词对被选择的名词、动词进行语义标注，最终得到语义模板。

继续上述实例，通过信息熵的计算，可确定选择“mayor”、“Beijing”进行泛化。通过在词语数据库140中查询“mayor”可得到其所有上位概念依次包括“person”、“title”、“human”。标签本体的示意图请参阅表1所示：

ID 标签：英文标签：繁体中文标签：简体中文

1 abbreviation\\abbreviation 簡稱\\簡稱简称\\简称

abbreviat ion\\expression 簡稱\\簡稱表简称\\简称表

2

abbreviated 示示

3 descript ion\\definit ion 描述\\定義描述\\定义

4 descript ion\\descript ion 描述\\描述描述\\描述

5 description\\manner 描述\\行為描述\\行为

6 description\\reason 描述\\原因描述\\原因

7 entity\\animal 實體\\動物实体\\动物

8 entity\\color 實體\\顏色实体\\颜色

實體\\流通名实体\\流通名

9 entity\\currency 稱称

10 entity\\disease 實體\\疾病实体\\疾病

……

31 Experiment\\software 實驗\\軟件实验\\软件

實驗\\軟件實实验\\软件实

32 Experiment\\softwareexperiment 驗验

33 human\\description 人物\\描述人物\\描述

34 human\\group 人物\\團體人物\\团体

35 human\\organization 人物\\組織人物\\组织

36 human\\individual 人物\\個人人物\\个人

37 human\\title 人物\\稱號人物\\称号

38 location\\city 位置\\城市位置\\城市

39 location\\country 位置\\國家位置\\国家

40 location\\mountain 位置\\山位置\\山

……

44 numeric\\code 數字\\代碼数字\\代码

45 numeric\\count 數字\\計數数字\\计数

46 numeric\\date 數字\\日期数字\\日期

47 numeric\\distance 數字\\距離数字\\距离

48 numeric\\festival 數字\\節日数字\\节日

49 numeric\\money 數字\\金錢数字\\金钱

50 numeric\\order 數字\\順序数字\\顺序

……

58 numeric\\weight 數字\\重量数字\\重量

表1

其中，标签本体中包括各种语言的标签，例如英文、繁体中文、简体中文，“\\”前面的词是第一级分类标签，后面的是第二级标签。共包含六个一级标签，即“abbreviation”、“entity”、“experiment”、“human”、“location”、“numeric”，以及它们分别对应的二级标签，共58个。

将所述上位概念与标签本体进行匹配，找到对应的标签，从而获得该标签中的语义关键词“Human\Title”(表1中第37项)，以进行后续的语义标注。同理，“Beijing”匹配到“Location\City”(表1中第38项)，最终得到语义模板为“<Type:Who>is[Human\Title]of[Location\City]？”。

“Beijing”的语义关键字为Location\City，所述语义关键字中包含语义描述及标签本体中多级概念间的关系，不仅便于机器的理解，也有利于用户根据语义标签的提示来完成问题的提问及回答。得到的语义模板可存储在模板库中。

在本申请的另一实施例中，步骤202与步骤203调换执行顺序。

请参阅图4所示，为本发明一实施例的操作步骤流程图。

步骤401与步骤201相同。

步骤402，在词语数据库140中查找所有该基本结构中存在的动词、名词的所有层级的上位概念，并将该上位概念与标签本体中的标签进行匹配，得到对应的标签，利用所述匹配成功的标签中的语义关键词为所有词语进行语义标注。

继续上述实例，在词语数据库140中查找“mayor”、“Beijing”的所有的上位概念。得到“mayor”的上位概念为“person”、“title”、“human”。将该上位概念与标签本体进行匹配获得语义标注Human\Title。同理，“Beijing”匹配到Location\City。

步骤403，将匹配到的标签对应的概念作为上位概念计算所有名词、动词的信息熵，然后选择前γ个大于预先设定阈值δ的单词，来泛化语义模板。

计算公式如前实施例中所述。

继续上述实施例，即，通过计算“Title”的信息熵，判断“mayor”一词是否可被选择进行泛化。

步骤404，最后对选择的名词、动词进行语义标注，并得到语义模板。

在这个实施例中，由于将单词在标签本体中匹配到的标签代替其上一层上位概念来计算信息熵，增大了上位概念包含更多信息的可能性，从而提高了选择名词、动词的质量，以及语义模板的质量。

另外，本发明还包括一种用户满意度的计算方法，用于评估本发明提出的自动生成问题的语义模板的方法和系统生成的语义模板的质量。该方法是由用户自己判断语义模板是否合适，即对其是否满意。

所述用户满意度的计算方法中，包含以下定义：

QS＝{Q₁，Q₂，…Q_n}表示一组问题的集合；PS＝{P₁，P₂，…P_n}表示该集合对应自动生成的语义模板的集合；对任一语义模板P_i(1≤i≤Number_of_questions(N))，用RT，RN和RV来表示该模板中问题类型、名词、动词是否正确。如果问题类型正确，该模板对应的RT为1；否则为0。假定，问题Q_i中有m个名词和n个动词，那么用户对其对应的语义模板中名词部分的满意度为

对动词部分的满意度为

在本发明的一个实施例中，所述用户满意度的计算方法中，用户对某一语义模板的满意度由下式计算：

S (P_{i}) = α \times RT + \frac{β}{m} Σ_{j = 1}^{m} RN (j) + \frac{(1 - α - β)}{n} Σ_{k = 1}^{n} RV (k)

式中α和β为评估过程中的两个权重系数，可通过一系列实验数据确定。在计算出用户对某一语义模板的满意度后，用户对整个语义模板集AS(PS)的平均满意度便可容易求得。

在本发明的一个实施例中，将本发明提出的方法应用到一问答系统中。当用户由自由文本提出一个新问题，系统将对其进行结构分析，并到模板数据库中匹配，返回几个最相关的语义模板。如果没有匹配到模板，系统将自动生成一些对应的语义模板。用户只需从这些语义模板中选择一个最相关的，并用它来提问。

在本发明的一个实施例中，从5500个训练问题中随机选取500个问题，来应用本发明提出的方法自动生成语义模板。然后随即选取10个模板作为一组，评估5次，并由人工检测结果。在实验中，α和β根据经验分别选为0.2和0.6。这10个模板的5次评估结果如下表2所示。

表2 评估结果

最后，求得整个语义模板集的平均满意度为63.9％。

本发明的保护范围不限于上述说明，本领域的一般技术人员按本发明的构思，可以对其做出修改或变动，它们应属于本发明的构思范围内。

Claims

1.一种自动生成问题的语义模板的方法，其特征在于，包括：

步骤一，识别自由文本形式的问题的基本结构；

步骤二，从该基本结构中，选择需要进行泛化的词语；

步骤三，在词语数据库中搜索被选择的词语的所有的上位概念，将所述上位概念与一标签本体中的标签进行匹配，利用所述匹配成功的标签中的语义关键词为被选择词语进行语义标注。

2.如权利要求1所述的方法，其特征在于，所述步骤一进一步包括：

获得带有名词和/或动词的基本结构；

对所述基本结构进行命名实体识别。

3.如权利要求1所述的方法，其特征在于，所述步骤二进一步包括：通过判断该基本结构中的词语的上位概念的信息熵，确定进行泛化的词语，其中，

H ({SC}_{j}) = - \underset{(T_{i} &Element; {SC}_{j})}{Σ} p (T_{i}) \log p (T_{i})

T_i：问题中第i个名词或动词；

SC_j：T_i的上位概念；

p(T_i)：T_i在拥有相同上位概念的单词中出现的概率；

H(SC_j)：SC_j的信息熵；

4.如权利要求1所述的方法，其特征在于，所述标签本体包含与所述词语数据库中各层级概念对应的以树型结构组织在一起的标签。

5.一种自动生成问题的语义模板的方法，其特征在于，包括：

步骤一，识别自由文本形式的问题的基本结构；

6.如权利要求5所述的方法，其特征在于，所述步骤一进一步包括：

获得带有名词和/或动词的基本结构；

对所述基本结构进行命名实体识别。

7.如权利要求5所述的方法，其特征在于，所述步骤三进一步包括：通过判断所述名词和/或动词的语义关键词的信息熵，确定进行泛化的词语，其中，

H ({SC}_{j}) = - \underset{(T_{i} &Element; {SC}_{j})}{Σ} p (T_{i}) \log p (T_{i})

T_i：问题中第i个名词或动词；

SC_j：T_i的语义关键词；

H(SC_j)：SC_j的信息熵；

8.如权利要求5所述的方法，其特征在于，所述标签本体包含与所述词语数据库中各层级概念对应的以树型结构组织在一起的标签。

9.一种自动生成问题语义模板的系统，其特征在于，包括：

10.如权利要求9所述的系统，其特征在于，所述泛化词语选择模块通过判断该基本结构中的词语的上位概念的信息熵，确定进行泛化的词语，其中，

H ({SC}_{j}) = - \underset{(T_{i} &Element; {SC}_{j})}{Σ} p (T_{i}) \log p (T_{i})

T_i：问题中第i个名词或动词；

SC_j：T_i的上位概念；

p(T_i)：T_i在拥有相同上位概念的单词中出现的概率；

H(SC_j)：SC_j的信息熵；