CN101369265A - 一种自动生成问题的语义模板的方法和系统 - Google Patents

一种自动生成问题的语义模板的方法和系统 Download PDF

Info

Publication number
CN101369265A
CN101369265A CNA2008100561689A CN200810056168A CN101369265A CN 101369265 A CN101369265 A CN 101369265A CN A2008100561689 A CNA2008100561689 A CN A2008100561689A CN 200810056168 A CN200810056168 A CN 200810056168A CN 101369265 A CN101369265 A CN 101369265A
Authority
CN
China
Prior art keywords
word
semantic
label
basic structure
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100561689A
Other languages
English (en)
Inventor
刘文印
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Original Assignee
BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd filed Critical BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Priority to CNA2008100561689A priority Critical patent/CN101369265A/zh
Publication of CN101369265A publication Critical patent/CN101369265A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动生成问题的语义模板的方法和系统。方法包括:步骤一,识别自由文本形式的问题的基本结构;步骤二,从该基本结构中,选择需要进行泛化的词语;步骤三,在词语数据库中搜索被选择的词语的所有上位概念,将所述上位概念与一标签本体中的标签进行匹配,利用所述匹配成功的标签中的语义关键词为被选择词语进行语义标注。利用本发明可根据自由文本形式的问题得到对应的匹配程度高的语义模板,且该语义模板还可覆盖较多的结构相似及语义相关的问题,从而被众多用户提问时使用,结构化及语义化地积累问题和答案,为自动搜索问题和答案的过程提供较为准确且可适当扩展的搜索源。

Description

一种自动生成问题的语义模板的方法和系统
技术领域
本发明涉及利用计算机进行自然语言处理领域,特别是涉及一种自动生成问题的语义模板的方法和系统。
背景技术
利用高速发展的信息技术,用户可通过网络、数据库等渠道,获得越来越多的信息。但是,现有的仅通过搜索引擎输入检索词进行检索的方式,由于其检索到的非相关内容过多,用户的筛选工作量较大,检索命中率低。故而,现已出现交互问答系统等新的信息获取方式,用户可直接提出自由文本形式的问题,由系统承担在庞大的答案数据库中进行分类检索的工作。
因而,用户输入的自由文本形式的问题都需要首先转换为语义模板,即对自由文本形式的问题的各个语法结构组成单元进行归类以及标识,使得在后续的答案搜索过程中,可基于该语义模板,搜索语义相关的问题,从而得到最多最贴近的答案。
发明内容
本所欲解决的问题在于,为了实现上述目的,本发明提供了一种生成问题的语义模板的方法和系统,用以提供高质量的语义模板。
为实现上述目的,本发明提供了一种自动生成问题的语义模板的方法,包括:
步骤一,识别自由文本形式的问题的基本结构;
步骤二,从该基本结构中,选择需要进行泛化的词语;
步骤三,在词语数据库中搜索被选择的词语的所有上位概念,将所述上位概念与一标签本体中的标签进行匹配,利用所述匹配成功的标签中的语义关键词为被选择词语进行语义标注。
所述步骤一进一步包括:
通过检索该问题中的问题类型关键词获取该问题的问题类型;
获得带有名词和/或动词的基本结构;
对所述基本结构进行命名实体识别。
所述步骤二进一步包括:通过判断该基本结构中的词语的上位概念的信息熵,确定进行泛化的词语,其中,
H ( SC j ) = - Σ ( T i ∈ SC j ) p ( T i ) log p ( T i )
Ti:问题中第i个名词或动词;
SCj:Ti的上位概念;
p(Ti):Ti在拥有相同上位概念的单词中出现的概率;
H(SCj):SCj的信息熵;
当SCj的信息熵超过设定的阈值时,该动词或名词被选择作为进行泛化的词语。
所述标签本体包含与所述词语数据库中各层级概念对应的以树型结构组织在一起的标签。
本发明还公开了一种自动生成问题的语义模板的方法,包括:
步骤一,识别自由文本形式的问题的基本结构;
步骤二,在词语数据库中搜索该基本结构中的词语的所有上位概念,将所述上位概念与一标签本体中的标签进行匹配,利用所述匹配成功的标签中的语义关键词为所有词语进行语义标注;
步骤三,利用所述标签中的语义关键词,选择需要进行泛化的词语。
所述步骤一进一步包括:
通过检索该问题中的问题类型关键词获取该问题的问题类型;
获得带有名词和/或动词的基本结构;
对所述基本结构进行命名实体识别。
所述步骤三进一步包括:通过判断所述名词和/或动词的语义关键词的信息熵,确定进行泛化的词语,其中,
H ( SC j ) = - Σ ( T i ∈ SC j ) p ( T i ) log p ( T i )
Ti:问题中第i个名词或动词;
SCj:Ti的语义关键词;
p(Ti):Ti在同样以该语义关键词为上位概念的单词中出现的概率;
H(SCj):SCj的信息熵;
当SCj的信息熵超过设定的阈值时,该动词或名词被选择作为进行泛化的词语。
所述标签本体包含与所述词语数据库中各层级概念对应的以树型结构组织在一起的标签。
本发明还公开了一种自动生成问题语义模板的系统,包括:
问题结构识别模块,用于识别自由文本形式的问题的基本结构;
泛化词语选择模块,用于在该问题的基本结构中选择需要进行泛化的词语;
语义匹配标注模块,用于在词语数据库中搜索该问题中的词语所有上位概念,将所述上位概念与一标签本体中的标签进行匹配,利用所述匹配成功的标签中的语义关键词为词语进行语义标注。
所述泛化词语选择模块通过判断该基本结构中的词语的上位概念的信息熵,确定进行泛化的词语,其中,
H ( SC j ) = - Σ ( T i ∈ SC j ) p ( T i ) log p ( T i )
Ti:问题中第i个名词或动词;
SCj:Ti的上位概念;
p(Ti):Ti在拥有相同上位概念的单词中出现的概率;
H(SCj):SCj的信息熵;
当SCj的信息熵超过设定的阈值时,该动词或名词被选择作为进行泛化的词语。
利用本发明可根据自由文本形式的问题得到对应的匹配程度高的语义模板,且该语义模板还可覆盖较多的结构相似及语义相关的问题,从而被众多用户提问时使用,结构化及语义化地积累问题和答案,为自动搜索问题和答案的过程提供较为准确且可适当扩展的搜索源。
附图说明
图1为本发明的整体系统结构示意图;
图2为本发明的一个实施例的操作步骤流程图;
图3为本发明步骤201的分步骤流程图;
图4为本发明的一实施例的操作步骤流程图。
具体实施方式
以下配合实施例以及附图,详细描述本发明的技术特征。
本发明用于根据自由文本形式的问题,生成匹配程度较高的语义模板,以便于答案或结果的获取。本发明所述系统模块可设置于一交互问答系统、一查询系统或一搜索系统中。
如图1所示为本发明的整体系统结构示意图。
语义模板生成系统100包括问题结构识别模块110、泛化词语选择模块120、语义匹配标注模块130、词语数据库140、标签本体150。
所述问题结构识别模块110用于识别一自由文本形式的问题的基本结构,并针对该结构进行命名实体识别。所述基本结构即包括该问题的所有重要信息,如问题类型、所包含的名词、动词等组成单元。所述问题结构识别模块110在识别过程中可忽略停用词或无意义的词。
所述问题结构识别模块110中还包括一命名实体识别模块111。所述命名实体识别模块(NER)111是对自由文本形式的问题中的最小信息单元进行识别,包括人名、公司/组织名、地址、日期、时间、百分比、货币金额。
所述泛化词语选择模块120用于从识别出的词语中,选择进行泛化的词语。所述泛化,即通过确定该词语的最贴近的上位概念而覆盖更多与该词语近似的词语,进而可通过该问题关联到其他相近的问题。
所述词语数据库140,包括单词及其对应的语义信息,同时,所有词语按照其语义信息的关联程度或隶属关系,被划分为不同的层级。通过该词语数据库140的数据层级结构,可以查找到任意单词的同义词集和上位概念。
所述标签本体150,包含由词语数据库140中的所有概念中精选出的、以树型层次结构组织在一起的、可用于标注一般词语的语义的一些(语义)标签。该标签即对应各个上位概念的语义关键词。为方便用户更好地理解和应用,该上位概念的层级可只包含两级。所述标签本体150用于对名词、动词用合适的语义关键词进行标注。
所述语义匹配标注模块130用于在词语数据库140中查找词语的所有上位概念,并将找到的上位概念与标签本体150中的标签进行匹配,从而对该问题进行语义标注,生成语义模板。
请参阅图2为本发明的一个实施例的操作步骤流程图。
步骤201,问题结构识别模块110接收一以自由文本形式输入的问题,识别该问题的基本结构,并对该结构的组成部分进行命名实体识别。
其中,该步骤201具体包括如下三个分步骤,如图3所示:
步骤301,通过检索该问题中的问题类型关键词获取该问题的问题类型,加类型标签;
步骤302,获得带有名词和/或动词的基本结构;
步骤303,利用该命名实体识别模块111进行识别,加实体标签。
例如,用户输入一自由文本形式的问题“who is the mayor of Beijing?”问题结构识别模块110首先识别其中的问题类型关键词,所述问题类型关键词即what、when、who、where、why、whether等。该问题的问题类型关键词为“who”,并标记为“<Type:Who>”。随后,忽略其中的停用词“the”,找到名词“mayor”。之后,通过命名实体识别模块111识别出“Beijing”是位置(城市名)实体。识别过程完成,从而得到该问题的基本结构:“<Type:Who>is[Noun=mayor]of[NE(location)=Beij ing]?”。
请继续参阅图2所示。
步骤202,从步骤201确定名词或动词中,通过判断该名词或动词的上位概念的信息熵,选择进行泛化的词语。
该信息熵的计算方法为:
H ( SC j ) = - &Sigma; ( T i &Element; SC j ) p ( T i ) log p ( T i ) , 式中符号含义如下:
Ti:问题Q中第i个名词或动词。
SCj:Ti的上位概念。
p(Ti):Ti在拥有相同上位概念的单词中出现的概率,即Ti被其同义词替换的可能性。
H(SCj):SCj的信息熵。
当信息熵超过某个预先设定的阈值δ时,该动词或名词可被选择作为被泛化的词语,而该上位概念将作为语义标注的候选者。
在本发明的一个实施例中,为方便大多数用户使用,用γ来限制被选择名词、动词的数目,以及用来生成问题模板的用户填充项的数目。当被选择的名词、动词数超过γ时,选择具有最佳信息熵的前γ个单词。
基于上述实例,问题结构识别模块110已经识别出名词“mayor”以及“Beijing”。继续上述实施例,在词语数据库140中查找或通过命名实体识别结果知道“Beijing”的上一级上位概念是“location\city”,通过词语数据库140还可知,“Washington”、“Boston”同样拥有该上位概念。通过事先收集的概率信息可知,“Washington”、“Boston”的概率分别为“0.00154”和“0.00308”,经过该公式的计算,于是得到“location\city”的信息熵为0.12757。预先设定的阈值δ可例如为0.05,可见该信息熵高于阈值,则“Beijing”一词可被用来进行泛化语义模板。
请继续参阅图2所示。
步骤203,在词语数据库140中查找被选择的名词、动词的所有的上位概念,并将该上位概念与标签本体中的标签进行匹配,利用所述匹配成功的标签中的语义关键词对被选择的名词、动词进行语义标注,最终得到语义模板。
继续上述实例,通过信息熵的计算,可确定选择“mayor”、“Beijing”进行泛化。通过在词语数据库140中查询“mayor”可得到其所有上位概念依次包括“person”、“title”、“human”。标签本体的示意图请参阅表1所示:
ID    标签:英文                         标签:繁体中文           标签:简体中文
1     abbreviation\\abbreviation         簡稱\\簡稱               简称\\简称
      abbreviat ion\\expression          簡稱\\簡稱表             简称\\简称表
2
      abbreviated                        示                       示
3     descript ion\\definit ion          描述\\定義               描述\\定义
4     descript ion\\descript ion         描述\\描述               描述\\描述
5     description\\manner                描述\\行為               描述\\行为
6     description\\reason                描述\\原因               描述\\原因
7          entity\\animal                        實體\\動物             实体\\动物
8          entity\\color                         實體\\顏色             实体\\颜色
                                                 實體\\流通名           实体\\流通名
9          entity\\currency                      稱                     称
10         entity\\disease                       實體\\疾病             实体\\疾病
……
31         Experiment\\software                  實驗\\軟件             实验\\软件
                                                 實驗\\軟件實           实验\\软件实
32         Experiment\\softwareexperiment        驗                     验
33         human\\description                    人物\\描述             人物\\描述
34         human\\group                          人物\\團體             人物\\团体
35         human\\organization                   人物\\組織             人物\\组织
36         human\\individual                     人物\\個人             人物\\个人
37         human\\title                          人物\\稱號             人物\\称号
38         location\\city                        位置\\城市             位置\\城市
39         location\\country                     位置\\國家             位置\\国家
40         location\\mountain                    位置\\山               位置\\山
……
44         numeric\\code                         數字\\代碼             数字\\代码
45         numeric\\count                        數字\\計數             数字\\计数
46         numeric\\date                         數字\\日期             数字\\日期
47         numeric\\distance                     數字\\距離             数字\\距离
48         numeric\\festival                     數字\\節日             数字\\节日
49         numeric\\money                        數字\\金錢             数字\\金钱
50         numeric\\order                        數字\\順序             数字\\顺序
……
58         numeric\\weight                       數字\\重量             数字\\重量
           表1
其中,标签本体中包括各种语言的标签,例如英文、繁体中文、简体中文,“\\”前面的词是第一级分类标签,后面的是第二级标签。共包含六个一级标签,即“abbreviation”、“entity”、“experiment”、“human”、“location”、“numeric”,以及它们分别对应的二级标签,共58个。
将所述上位概念与标签本体进行匹配,找到对应的标签,从而获得该标签中的语义关键词“Human\Title”(表1中第37项),以进行后续的语义标注。同理,“Beijing”匹配到“Location\City”(表1中第38项),最终得到语义模板为“<Type:Who>is[Human\Title]of[Location\City]?”。
“Beijing”的语义关键字为Location\City,所述语义关键字中包含语义描述及标签本体中多级概念间的关系,不仅便于机器的理解,也有利于用户根据语义标签的提示来完成问题的提问及回答。得到的语义模板可存储在模板库中。
在本申请的另一实施例中,步骤202与步骤203调换执行顺序。
请参阅图4所示,为本发明一实施例的操作步骤流程图。
步骤401与步骤201相同。
步骤402,在词语数据库140中查找所有该基本结构中存在的动词、名词的所有层级的上位概念,并将该上位概念与标签本体中的标签进行匹配,得到对应的标签,利用所述匹配成功的标签中的语义关键词为所有词语进行语义标注。
继续上述实例,在词语数据库140中查找“mayor”、“Beijing”的所有的上位概念。得到“mayor”的上位概念为“person”、“title”、“human”。将该上位概念与标签本体进行匹配获得语义标注Human\Title。同理,“Beijing”匹配到Location\City。
步骤403,将匹配到的标签对应的概念作为上位概念计算所有名词、动词的信息熵,然后选择前γ个大于预先设定阈值δ的单词,来泛化语义模板。
计算公式如前实施例中所述。
继续上述实施例,即,通过计算“Title”的信息熵,判断“mayor”一词是否可被选择进行泛化。
步骤404,最后对选择的名词、动词进行语义标注,并得到语义模板。
在这个实施例中,由于将单词在标签本体中匹配到的标签代替其上一层上位概念来计算信息熵,增大了上位概念包含更多信息的可能性,从而提高了选择名词、动词的质量,以及语义模板的质量。
另外,本发明还包括一种用户满意度的计算方法,用于评估本发明提出的自动生成问题的语义模板的方法和系统生成的语义模板的质量。该方法是由用户自己判断语义模板是否合适,即对其是否满意。
所述用户满意度的计算方法中,包含以下定义:
QS={Q1,Q2,…Qn}表示一组问题的集合;PS={P1,P2,…Pn}表示该集合对应自动生成的语义模板的集合;对任一语义模板Pi(1≤i≤Number_of_questions(N)),用RT,RN和RV来表示该模板中问题类型、名词、动词是否正确。如果问题类型正确,该模板对应的RT为1;否则为0。假定,问题Qi中有m个名词和n个动词,那么用户对其对应的语义模板中名词部分的满意度为
Figure A200810056168D00131
对动词部分的满意度为
Figure A200810056168D00132
在本发明的一个实施例中,所述用户满意度的计算方法中,用户对某一语义模板的满意度由下式计算:
S ( P i ) = &alpha; &times; RT + &beta; m &Sigma; j = 1 m RN ( j ) + ( 1 - &alpha; - &beta; ) n &Sigma; k = 1 n RV ( k )
式中α和β为评估过程中的两个权重系数,可通过一系列实验数据确定。在计算出用户对某一语义模板的满意度后,用户对整个语义模板集AS(PS)的平均满意度便可容易求得。
在本发明的一个实施例中,将本发明提出的方法应用到一问答系统中。当用户由自由文本提出一个新问题,系统将对其进行结构分析,并到模板数据库中匹配,返回几个最相关的语义模板。如果没有匹配到模板,系统将自动生成一些对应的语义模板。用户只需从这些语义模板中选择一个最相关的,并用它来提问。
在本发明的一个实施例中,从5500个训练问题中随机选取500个问题,来应用本发明提出的方法自动生成语义模板。然后随即选取10个模板作为一组,评估5次,并由人工检测结果。在实验中,α和β根据经验分别选为0.2和0.6。这10个模板的5次评估结果如下表2所示。
Figure A200810056168D00141
表2 评估结果
最后,求得整个语义模板集的平均满意度为63.9%。
利用本发明可根据自由文本形式的问题得到对应的匹配程度高的语义模板,且该语义模板还可覆盖较多的结构相似及语义相关的问题,从而被众多用户提问时使用,结构化及语义化地积累问题和答案,为自动搜索问题和答案的过程提供较为准确且可适当扩展的搜索源。
本发明的保护范围不限于上述说明,本领域的一般技术人员按本发明的构思,可以对其做出修改或变动,它们应属于本发明的构思范围内。

Claims (10)

1.一种自动生成问题的语义模板的方法,其特征在于,包括:
步骤一,识别自由文本形式的问题的基本结构;
步骤二,从该基本结构中,选择需要进行泛化的词语;
步骤三,在词语数据库中搜索被选择的词语的所有的上位概念,将所述上位概念与一标签本体中的标签进行匹配,利用所述匹配成功的标签中的语义关键词为被选择词语进行语义标注。
2.如权利要求1所述的方法,其特征在于,所述步骤一进一步包括:
通过检索该问题中的问题类型关键词获取该问题的问题类型;
获得带有名词和/或动词的基本结构;
对所述基本结构进行命名实体识别。
3.如权利要求1所述的方法,其特征在于,所述步骤二进一步包括:通过判断该基本结构中的词语的上位概念的信息熵,确定进行泛化的词语,其中,
H ( SC j ) = - &Sigma; ( T i &Element; SC j ) p ( T i ) log p ( T i )
Ti:问题中第i个名词或动词;
SCj:Ti的上位概念;
p(Ti):Ti在拥有相同上位概念的单词中出现的概率;
H(SCj):SCj的信息熵;
当SCj的信息熵超过设定的阈值时,该动词或名词被选择作为进行泛化的词语。
4.如权利要求1所述的方法,其特征在于,所述标签本体包含与所述词语数据库中各层级概念对应的以树型结构组织在一起的标签。
5.一种自动生成问题的语义模板的方法,其特征在于,包括:
步骤一,识别自由文本形式的问题的基本结构;
步骤二,在词语数据库中搜索该基本结构中的词语的所有上位概念,将所述上位概念与一标签本体中的标签进行匹配,利用所述匹配成功的标签中的语义关键词为所有词语进行语义标注;
步骤三,利用所述标签中的语义关键词,选择需要进行泛化的词语。
6.如权利要求5所述的方法,其特征在于,所述步骤一进一步包括:
通过检索该问题中的问题类型关键词获取该问题的问题类型;
获得带有名词和/或动词的基本结构;
对所述基本结构进行命名实体识别。
7.如权利要求5所述的方法,其特征在于,所述步骤三进一步包括:通过判断所述名词和/或动词的语义关键词的信息熵,确定进行泛化的词语,其中,
H ( SC j ) = - &Sigma; ( T i &Element; SC j ) p ( T i ) log p ( T i )
Ti:问题中第i个名词或动词;
SCj:Ti的语义关键词;
p(Ti):Ti在同样以该语义关键词为上位概念的单词中出现的概率;
H(SCj):SCj的信息熵;
当SCj的信息熵超过设定的阈值时,该动词或名词被选择作为进行泛化的词语。
8.如权利要求5所述的方法,其特征在于,所述标签本体包含与所述词语数据库中各层级概念对应的以树型结构组织在一起的标签。
9.一种自动生成问题语义模板的系统,其特征在于,包括:
问题结构识别模块,用于识别自由文本形式的问题的基本结构;
泛化词语选择模块,用于在该问题的基本结构中选择需要进行泛化的词语;
语义匹配标注模块,用于在词语数据库中搜索该问题中的词语所有上位概念,将所述上位概念与一标签本体中的标签进行匹配,利用所述匹配成功的标签中的语义关键词为词语进行语义标注。
10.如权利要求9所述的系统,其特征在于,所述泛化词语选择模块通过判断该基本结构中的词语的上位概念的信息熵,确定进行泛化的词语,其中,
H ( SC j ) = - &Sigma; ( T i &Element; SC j ) p ( T i ) log p ( T i )
Ti:问题中第i个名词或动词;
SCj:Ti的上位概念;
p(Ti):Ti在拥有相同上位概念的单词中出现的概率;
H(SCj):SCj的信息熵;
当SCj的信息熵超过设定的阈值时,该动词或名词被选择作为进行泛化的词语。
CNA2008100561689A 2008-01-14 2008-01-14 一种自动生成问题的语义模板的方法和系统 Pending CN101369265A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008100561689A CN101369265A (zh) 2008-01-14 2008-01-14 一种自动生成问题的语义模板的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008100561689A CN101369265A (zh) 2008-01-14 2008-01-14 一种自动生成问题的语义模板的方法和系统

Publications (1)

Publication Number Publication Date
CN101369265A true CN101369265A (zh) 2009-02-18

Family

ID=40413084

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100561689A Pending CN101369265A (zh) 2008-01-14 2008-01-14 一种自动生成问题的语义模板的方法和系统

Country Status (1)

Country Link
CN (1) CN101369265A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033934A (zh) * 2010-12-17 2011-04-27 百度在线网络技术(北京)有限公司 一种形成提问的方法、装置和知识问答系统的服务器端
CN101588558B (zh) * 2009-03-30 2011-11-02 网易(杭州)网络有限公司 一种过滤垃圾信息的方法及系统
CN102737049A (zh) * 2011-04-11 2012-10-17 腾讯科技(深圳)有限公司 一种数据库的查询方法和系统
CN103870440A (zh) * 2012-12-12 2014-06-18 中国移动通信集团广西有限公司 一种文本数据处理方法及装置
CN104778257A (zh) * 2015-04-20 2015-07-15 百度在线网络技术(北京)有限公司 应用题搜索方法和装置
CN105243052A (zh) * 2015-09-15 2016-01-13 浪潮软件集团有限公司 一种语料标注方法、装置和系统
CN105824800A (zh) * 2016-03-15 2016-08-03 江苏科技大学 一种中文真词错误自动校对方法
CN103870440B (zh) * 2012-12-12 2016-11-30 中国移动通信集团广西有限公司 一种文本数据处理方法及装置
CN106664450A (zh) * 2014-07-29 2017-05-10 三星电子株式会社 服务器、服务器的信息提供方法、显示装置、显示装置的控制方法以及信息提供系统
CN107993724A (zh) * 2017-11-09 2018-05-04 易保互联医疗信息科技(北京)有限公司 一种医学智能问答数据处理的方法及装置
CN108090041A (zh) * 2016-11-22 2018-05-29 北京国双科技有限公司 一种广告创意的生成方法及装置
CN108460026A (zh) * 2017-02-22 2018-08-28 华为技术有限公司 一种翻译方法及装置
CN109446310A (zh) * 2018-10-30 2019-03-08 腾讯科技(武汉)有限公司 一种问句模板的质量评估方法、装置及存储介质
CN109522534A (zh) * 2018-10-12 2019-03-26 北京来也网络科技有限公司 用于语料处理的任务生成方法及装置
CN109739968A (zh) * 2018-12-29 2019-05-10 北京猎户星空科技有限公司 一种数据处理方法及装置
CN110059163A (zh) * 2019-04-29 2019-07-26 百度在线网络技术(北京)有限公司 生成模板的方法和装置、电子设备、计算机可读介质
CN110399597A (zh) * 2018-04-24 2019-11-01 西门子股份公司 模板提取系统、装置和方法
CN111488450A (zh) * 2020-04-08 2020-08-04 北京字节跳动网络技术有限公司 一种用于生成关键词库的方法、装置和电子设备
CN112306252A (zh) * 2019-07-30 2021-02-02 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN112966682A (zh) * 2021-05-18 2021-06-15 江苏联著实业股份有限公司 一种基于语义分析的档案分类方法及系统
CN113434650A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 问答对扩展方法、装置、电子设备及可读存储介质
CN113486220A (zh) * 2021-07-28 2021-10-08 平安国际智慧城市科技股份有限公司 动词短语成分标注方法、装置、电子设备及存储介质

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101588558B (zh) * 2009-03-30 2011-11-02 网易(杭州)网络有限公司 一种过滤垃圾信息的方法及系统
CN102033934A (zh) * 2010-12-17 2011-04-27 百度在线网络技术(北京)有限公司 一种形成提问的方法、装置和知识问答系统的服务器端
CN102033934B (zh) * 2010-12-17 2016-09-07 百度在线网络技术(北京)有限公司 一种形成提问的方法、装置和知识问答系统的服务器端
CN102737049A (zh) * 2011-04-11 2012-10-17 腾讯科技(深圳)有限公司 一种数据库的查询方法和系统
CN103870440B (zh) * 2012-12-12 2016-11-30 中国移动通信集团广西有限公司 一种文本数据处理方法及装置
CN103870440A (zh) * 2012-12-12 2014-06-18 中国移动通信集团广西有限公司 一种文本数据处理方法及装置
US10242586B2 (en) 2014-07-29 2019-03-26 Samsung Electronics Co., Ltd. Server, information providing method of server, display apparatus, controlling method of display apparatus and information providing system
CN106664450A (zh) * 2014-07-29 2017-05-10 三星电子株式会社 服务器、服务器的信息提供方法、显示装置、显示装置的控制方法以及信息提供系统
CN104778257A (zh) * 2015-04-20 2015-07-15 百度在线网络技术(北京)有限公司 应用题搜索方法和装置
CN104778257B (zh) * 2015-04-20 2018-09-07 百度在线网络技术(北京)有限公司 应用题搜索方法和装置
CN105243052A (zh) * 2015-09-15 2016-01-13 浪潮软件集团有限公司 一种语料标注方法、装置和系统
CN105824800A (zh) * 2016-03-15 2016-08-03 江苏科技大学 一种中文真词错误自动校对方法
CN105824800B (zh) * 2016-03-15 2018-06-26 江苏科技大学 一种中文真词错误自动校对方法
CN108090041A (zh) * 2016-11-22 2018-05-29 北京国双科技有限公司 一种广告创意的生成方法及装置
CN108460026B (zh) * 2017-02-22 2021-02-12 华为技术有限公司 一种翻译方法及装置
CN108460026A (zh) * 2017-02-22 2018-08-28 华为技术有限公司 一种翻译方法及装置
US11244108B2 (en) 2017-02-22 2022-02-08 Huawei Technologies Co., Ltd. Translation method and apparatus
CN107993724A (zh) * 2017-11-09 2018-05-04 易保互联医疗信息科技(北京)有限公司 一种医学智能问答数据处理的方法及装置
CN107993724B (zh) * 2017-11-09 2020-11-13 易保互联医疗信息科技(北京)有限公司 一种医学智能问答数据处理的方法及装置
CN110399597B (zh) * 2018-04-24 2023-11-17 西门子股份公司 模板提取系统、装置和方法
CN110399597A (zh) * 2018-04-24 2019-11-01 西门子股份公司 模板提取系统、装置和方法
CN109522534A (zh) * 2018-10-12 2019-03-26 北京来也网络科技有限公司 用于语料处理的任务生成方法及装置
CN109522534B (zh) * 2018-10-12 2022-12-13 北京来也网络科技有限公司 用于语料处理的任务生成方法及装置
CN109446310B (zh) * 2018-10-30 2020-11-03 腾讯科技(武汉)有限公司 一种问句模板的质量评估方法、装置及存储介质
CN109446310A (zh) * 2018-10-30 2019-03-08 腾讯科技(武汉)有限公司 一种问句模板的质量评估方法、装置及存储介质
CN109739968A (zh) * 2018-12-29 2019-05-10 北京猎户星空科技有限公司 一种数据处理方法及装置
CN110059163A (zh) * 2019-04-29 2019-07-26 百度在线网络技术(北京)有限公司 生成模板的方法和装置、电子设备、计算机可读介质
CN112306252A (zh) * 2019-07-30 2021-02-02 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111488450A (zh) * 2020-04-08 2020-08-04 北京字节跳动网络技术有限公司 一种用于生成关键词库的方法、装置和电子设备
CN112966682A (zh) * 2021-05-18 2021-06-15 江苏联著实业股份有限公司 一种基于语义分析的档案分类方法及系统
CN113434650A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 问答对扩展方法、装置、电子设备及可读存储介质
CN113434650B (zh) * 2021-06-29 2023-11-14 平安科技(深圳)有限公司 问答对扩展方法、装置、电子设备及可读存储介质
CN113486220A (zh) * 2021-07-28 2021-10-08 平安国际智慧城市科技股份有限公司 动词短语成分标注方法、装置、电子设备及存储介质
CN113486220B (zh) * 2021-07-28 2024-01-23 平安国际智慧城市科技股份有限公司 动词短语成分标注方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN101369265A (zh) 一种自动生成问题的语义模板的方法和系统
CN110968699B (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN112035636B (zh) 医疗问诊系统的问答管理方法、装置、设备及存储介质
CN103678281B (zh) 对文本进行自动标注的方法和装置
CN111949758A (zh) 医疗问答推荐方法、推荐系统和计算机可读存储介质
CN111783428B (zh) 基于深度学习的应急管理类客观题自动生成系统
CN105677873A (zh) 基于领域知识模型的文本情报关联聚类汇集处理方法
CN103365910B (zh) 一种信息检索的方法和系统
CN113821605B (zh) 一种事件抽取方法
CN102160066A (zh) 特别适用于专利文献的搜索引擎和方法
CN111858896B (zh) 一种基于深度学习的知识库问答方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN107784048B (zh) 问答语料库的问题分类方法及装置
CN112883175B (zh) 结合预训练模型及模板生成的气象服务交互方法及系统
CN113821587B (zh) 文本相关性确定方法、模型训练方法、装置及存储介质
CN113836269B (zh) 一种基于问答式系统的篇章级核心事件抽取方法
Schulz et al. Machine vs. human translation of SNOMED CT terms
CN113111159A (zh) 问答记录生成方法、装置、电子设备及存储介质
CN112579666A (zh) 智能问答系统和方法及相关设备
CN109558591A (zh) 中文事件检测方法及装置
Olvera-Lobo et al. Question answering track evaluation in TREC, CLEF and NTCIR
Fuentes Fort et al. Support vector machines for query-focused summarization trained and evaluated on pyramid data
Purevdagva et al. A machine-learning based framework for detection of fake political speech
Abdiansah et al. Survey on answer validation for Indonesian question answering system (IQAS)
Navigli A structural approach to the automatic adjudication of word sense disagreements

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090218