CN104991955A - 一种自动构建模板库的方法及系统 - Google Patents

一种自动构建模板库的方法及系统 Download PDF

Info

Publication number
CN104991955A
CN104991955A CN201510427822.2A CN201510427822A CN104991955A CN 104991955 A CN104991955 A CN 104991955A CN 201510427822 A CN201510427822 A CN 201510427822A CN 104991955 A CN104991955 A CN 104991955A
Authority
CN
China
Prior art keywords
template
elementary
level
language material
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510427822.2A
Other languages
English (en)
Other versions
CN104991955B (zh
Inventor
吴玲
赵乾
王兴宝
李莉
王道广
于振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Medical Technology Co ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201510427822.2A priority Critical patent/CN104991955B/zh
Publication of CN104991955A publication Critical patent/CN104991955A/zh
Application granted granted Critical
Publication of CN104991955B publication Critical patent/CN104991955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种自动构建模板库的方法及系统,包括:获取大量请求语料;提取所述请求语料的语义信息;根据所述语义信息对所述请求语料进行抽象,得到对应所述请求语料的初级模板,并归入初级模板库;根据所述初级模板库中模板的语义信息,对所述初级模板库中的初级模板进行聚类,根据聚类结果生成高级模板库。由于根据语义信息对请求语料进行抽象得到初级模板库,并对初级模板库进行聚类得到高级模板库,使得模板构建的过程可以以统一的判断标准自动构建模板库,能有效减少冗余模板,进而提高模板库的查找效率。

Description

一种自动构建模板库的方法及系统
技术领域
本发明涉及人工智能领域,具体涉及一种自动构建模板库的方法及系统。
背景技术
随着人工智能领域的不断发展,人们对自动问答系统的要求越来越高,各大厂商希望通过机器人回答客户的大部分疑问,降低人工客服成本。如通讯运营商的用户会询问“我的话费是多少”,以往用户常常通过找人工客服、发送短信指令等方式来获得答案,拨打人工客服的方法对用户来说是最方便的,但是往往存在拨打人数过多,需要等待的问题,可以通过增加客服数量等方法来解决,而对运营商来说,客服人力的投入也是一笔很大的支出。
现有的人工智能解决方法一般是使用自动问答系统,接收用户的请求语料,根据后台的模板库与请求语料进行关联后,找到相应的答案,反馈给用户。现有的模板库构建方法一般是采用人工构建的方法,即人工整理现有的大量请求语料,抽象成相应的模板加入到模板库中。当请求语料较多时,构建模板库的工作量较大,成本较高;并且,构建模板库时,确定当前语料是否加入到模板库中,也是由人工判断,但是,不同人的判断结果,甚至同一人在不同时间或不同环境中的判断结果可能不同,而且随着请求语料的增加,模板库中也会产生较多冗余模板。
发明内容
本发明实施例提供一种自动构建模板库的方法及系统,以解决现有技术中由于人工构建方式使模板库中存在较多冗余模板的问题,准确的构建模板库,进而提高模板库的查找效率。
为此,本发明实施例提供如下技术方案:
一种自动构建模板库的方法,包括:
获取大量请求语料;
提取所述请求语料的语义信息;
根据所述语义信息对所述请求语料进行抽象,得到对应所述请求语料的初级模板,并归入初级模板库;
根据所述初级模板库中模板的语义信息,对所述初级模板库中的初级模板进行聚类,根据聚类结果生成高级模板库。
优选的,所述语义信息包括:词信息和句义信息。
优选的,所述根据所述语义信息对所述请求语料进行抽象,得到对应所述请求语料的初级模板,并归入初级模板库包括:
根据请求语料的语义信息,对所述请求语料进行多层次抽象,获取所述请求语料的多层次初级模板;
将所述请求语料的多层次初级模板按层次归入初级模板库。
优选的,所述根据所述初级模板库中模板的语义信息,对所述初级模板库中的初级模板进行聚类,根据聚类结果生成高级模板库包括:
根据初级模板库中模板的语义信息,对初级模板进行聚类,获取模板组;
根据模板组之间的关系构建高级模板库。
优选的,对应同一个请求语料的不同层次的初级模板,层次低的初级模板继承层次高的初级模板。
优选的,所述根据所述初级模板库中模板的语义信息,对所述初级模板库中的初级模板进行聚类,根据聚类结果生成高级模板库包括:
根据初级模板库中模板的语义信息,对处于同一层次的初级模板进行聚类,同一类中的模板构成一个模板组,获取各层次初级模板对应的模板组;
根据各层次模板组之间的关系构建高级模板库。
优选的,所述方法还包括:
记录用户实际请求语料;
根据所述用户实际请求语料,更新所述高级模板库。
一种自动构建模板库的系统,包括:
接收模块,用于获取大量请求语料;
提取模块,用于提取所述请求语料的语义信息;
初级模板库生成模块,用于根据所述语义信息对所述请求语料进行抽象,得到对应所述请求语料的初级模板,并归入初级模板库;
高级模板库生成模块,用于根据所述初级模板库中模板的语义信息,对所述初级模板库中的初级模板进行聚类,根据聚类结果生成高级模板库。
优选的,所述初级模板库生成模块包括:
多层次初级模板获取单元,用于根据请求语料的语义信息,对所述请求语料进行多层次抽象,获取所述请求语料的多层次初级模板;
多层次初级模板库构建单元,用于将所述请求语料的多层次初级模板按层次归入初级模板库。
优选的,所述高级模板库生成模块包括:
第一模板组获取单元,用于根据初级模板库中模板的语义信息,对初级模板进行聚类,获取模板组;
第一高级模板库构建单元,用于根据模板组之间的关系构建高级模板库。
优选的,所述高级模板库生成模块包括:
第二模板组获取单元,用于根据初级模板库中模板的语义信息,对处于同一层次的初级模板进行聚类,同一类中的模板构成一个模板组,获取各层次初级模板对应的模板组;
第二高级模板库构建单元,用于根据各层次模板组之间的关系构建高级模板库。
优选的,所述系统还包括:
记录模块,用于记录用户实际请求语料;
更新模块,用于根据所述用户实际请求语料,更新高级模板库。
本发明实施例提供的一种自动构建模板库的方法及系统,根据请求语料的语义信息,对获取的大量请求语料进行抽象,得到所述请求语料的初级模板,并归入初级模板库,然后对初级模板库中的所述初级模板进行聚类,根据聚类结果生成高级模板库。由于根据语义信息对请求语料进行抽象得到初级模板库,并对初级模板库进行聚类得到高级模板库,使得模板构建的过程可以以统一的判断标准自动构建模板库,能有效减少冗余模板,进而提高模板库的查找效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的自动构建模板库的方法的流程图;
图2是本发明实施例提供的自动构建模板库的系统的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步地详细说明。以下实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
为了更好地理解本发明,下面首先对现有技术中模板库构建方法进行简单说明。现有技术中通常采用人工构建的方法构建模板库,即人工整理现有请求语料,抽象成相应的模板加入到模板库中,例如,请求语料“什么是信用卡”,可以抽象为“什么是(业务名)”;然后查看模板库中是否存在该模板,如果存在,则将当前请求语料与已存在模板关联,如果不存在,则直接将该模板加入到模板库中。当请求语料较多时,构建模板库的工作量较大,且由人工判断当前语料是否加入到模板库,导致构建的模板库的质量不高。本发明实施例提供的自动构建模板库的方法及系统,根据请求语料的语义信息,对获取的请求语料进行抽象,得到对应所述请求语料的初级模板,并归入到初级模板库,然后根据初级模板库中模板的语义信息,对所述初级模板库中的初级模板进行聚类,根据聚类结果生成高级模板库,从而减少了模板库中的冗余模板,有效提高了模板查找效率。
为了更好的理解本发明的技术方案和技术效果,以下将结合流程图和具体的实施例进行详细的描述。
如图1所示,是本发明实施例提供的自动构建模板库的方法的流程图,包括以下步骤:
步骤S01,获取大量请求语料。
在本实施例中,所述请求语料可以包括标准请求语料及其扩展请求语料等,如“请帮我开通彩铃”为标准请求语料,“我要办理彩铃”为扩展请求语料。此外,根据分类方式不同,所述请求语料还可以为根据用户需求预先设定的请求语料,也可以为实际应用中,获取的用户实际请求语料。例如,通讯运营商的用户询问“我的本月话费是多少”,通过系统或人工记录该询问语句,并将其作为一个请求语料。
步骤S02,提取所述请求语料的语义信息。
在实际应用中,可以根据应用需求,预先设定所需提取的语义信息种类;然后提取待处理请求语料的预先设定所需提取的语义信息。在本实施例中,所述请求语料的语义信息包括:词信息和句义信息。所述词信息主要包括词原型、词性、词类(主要用来说明词的类型,如词的类型为业务或操作)、上位词、反义词、相关的同义词,所述句义信息主要包括核心谓词、相关施事、相关受事、从句信息、从句核心谓词、从句施事、从句受事。具体提取过程与现有技术相同,对请求语料进行分词、词性标注后,进行韵律分析即可得到请求语料的语义信息。
以通讯领域的智能问答应用为例进行说明,在一个具体的实施例中,所述词信息包括:词原型、同义词、词性、词类、反义词、上位词;所述句义信息包括:核心谓词、施事、受事、从句信息。以“请帮我开通下个月彩铃”为例进行说明,首先对请求语料进行分词处理,得到词原型:请-帮-我-开通-下个月-彩铃;然后获取各词原型的相应语义信息。如表1为请求语料“请帮我开通下个月彩铃”提取的语义信息。
表1
根据该方法,可以以统一的标准提取请求语料的语义信息,避免人工判断时采用的标准不一致导致得到的结果不一致的现象。
步骤S03,根据所述语义信息对所述请求语料进行抽象,得到对应所述请求语料的初级模板,并归入初级模板库。
在本实施例中,为了确保初级模板库中模板的通用性,主要根据请求语料的语义信息来对请求语料进行抽象,具体抽象时,可以根据预先设定所需提取的语义信息,提取请求语料的语义信息。以通讯领域的智能问答应用为例进行说明,相应的使用语义信息中的词类、核心谓词、施事、受事为例,对请求语料进行抽象,具体如下所述:
步a)将非核心谓词抽象为该词原型的上位词;实际应用中,并不是所有的词原型都有上位词,通过提取的请求语料的语义信息,判断当前请求语料中有上位词的词原型是否为核心谓词,当判断结果为否时,采用设定的上位词标记及上位词替代该词原型。例如,使用“$”表示上位词标记符号,具体标记符号不做限定,将请求语料“请帮我开通下个月彩铃”中的“下个月”抽象为“$月份”,抽象后的请求语料为“请帮我开通$月份彩铃”。
步b)将步a)抽象后的请求语料中,句义信息为受事的词原型,抽象为该词原型相应的词类,例如,使用“$#”表示词类标记符号,具体标记符号不限,将请求语料“请帮我开通$月份彩铃”进一步抽象后,得到初级模板“请帮我开通$月份($#业务)”。
然后,将得到的初级模板归入初级模板库中。
进一步地,为了提高模板的通用性,可以对请求语料进行多层次的抽象,具体可以根据提取的请求语料的语义信息,对请求语料进行多层次抽象,例如对初级模板继续进行抽象,以获得该请求语料相应的多层次模板,具体包括步骤:
将初级模板对应请求语料中句义信息为核心谓词的词原型抽象为该词原型相应的词类。例如,对初级模板“请帮我开通$月份($#业务)”进行抽象后,得到更高层次的初级模板“请帮我($#操作)$月份($#业务)”。
当然,还可以对更高层次的初级模板进行进一步抽象,将更高层次的初级模板对应请求语料中句义信息为代词的词原型抽象为该词原型相应的词类。例如,对更高层次的初级模板“请帮我($#操作)$月份($#业务)”进行抽象后,得到层次更高的初级模板“请帮($#人称)($#操作)$月份($#业务)”。具体将请求语料抽象多少层次视具体应用而定,本发明不做特殊限定。
然后,按层次将得到的初级模板归入到初级模板库中,例如,以抽象层次为两层为例进行说明:将两个抽象层次作为模板库中的两大类,对请求语料进行抽象后,每条请求语料会有两个抽象层次的初级模板,将相同抽象层次的所有请求语料相应的初级模板,归入模板库的同一大类中,所有请求语料的初级模板构成初级模板库。参考表2为请求语料的初级模板库。
表2
请求语料 子模板(抽象层次为1) 父模板(抽象层次为2)
什么是信用卡 什么是($#业务) -
介绍信用卡 介绍($#业务) -
什么是借记卡 什么是($#业务) -
何为借记卡 何为($#业务) -
怎么办理信用卡 怎么办理($#业务) 怎么($#操作)($#业务)
办理信用卡的方法 办理($#业务)的方法 ($#操作)($#业务)的方法
哪里可以挂失借记卡 哪里可以挂失($#业务) 哪里可以($#操作)($#业务)
怎么挂失借记卡 怎么挂失($#业务) 怎么($#操作)($#业务)
其中,表2中子模板的抽象层次为1,父模板的抽象层次为2。
需要说明的是,对应同一个请求语料的不同层次的初级模板,层次低的模板继承层次高的抽象模板,如初级模板“请帮我开通$月份($#业务)”继承更高抽象层次的初级模板“请帮我($#操作)$月份($#业务)”;又如初级模板“怎么挂失($#业务)”继承更高抽象层次的初级模板“怎么($#操作)($#业务)”。
通过以上步骤,可以以统一的标准自动对请求语料进行抽象,获取请求语料的初级模板,并将初级模板按抽象层次归入初级模板库中。
步骤S04,根据所述初级模板库中模板的语义信息,对所述初级模板库中的初级模板进行聚类,根据聚类结果生成高级模板库。
基于初级模板库中模板的语义信息,对所有初级模板进行聚类,同时确定聚类后各模板之间的关系,得到高级模板库,具体如下所述:
步1)根据初级模板库中模板的语义信息,对初级模板进行聚类,获取模板组。具体聚类方法与现有技术相同,即计算每个初级模板中未抽象部分的相似度,具体计算相似度时,提取特征主要有:核心谓词是否一致,疑问词是否一致,时间、地点等是否相同,当相似度大于预先设定的阈值时,则将两个初级模板聚到同一类,聚到同一类的模板作为一个模板组,所述聚类方法如K-means方法。
步2)根据模板组之间的关系构建高级模板库。为了增加高级模板库中各模板的重用度,减少模板库的冗余,本实施例确定了各模板组的继承关系。模板组的继承关系根据模板组中各模板的继承关系来确定。
进一步地,为了提高模板的通用性,对请求语料进行多层次抽象后得到的抽象层次不同的初级模板,同一抽象层次内的初级模板进行聚类,根据聚类结果生成高级模板库,具体包括:
根据初级模板库中模板的语义信息,对处于同一层次的初级模板进行聚类,同一类中的模板构成一个模板组,获取各层次初级模板对应的模板组;
根据各层次模板组之间的关系构建高级模板库。
在本实施例中,为了进一步增加高级模板库中各模板的重用度,减少模板库的冗余,本实施例中确定了各模板组的继承关系。模板组的继承关系根据模板组中各模板的继承关系来确定,各模板的继承关系在初级模板抽象时,预先确定,即同一个请求语料抽象层次较低的模板继承抽象层次较高的模板。例如,对于抽象层次相同的模板进行聚类,得到聚类后的模板组,并确定各模板组之间的继承关系。具体使用模板库时,当请求语料找到模板库中合适的模板时,会根据该模板的继承关系,将请求语料扩展为该模板对应的父模板组中相应模板,增加模板的重用度,当答案库中存在请求语料或扩展请求语料的模板时,都可以找到答案反馈给用户。参考表3为请求语料的高级模板库。
表3
由表3可以看出模板组2和模板组3均继承模板组4,当请求语料找到合适的模板后,将自动扩展为该模板的父模板组的说法,例如模板组4,增加模板的重用度。例如当请求语料为“怎么挂失信用卡”时,找到合适的模板为模板组3中的“怎么挂失($#业务)”,因此,该请求语料的扩展请求语料为“哪里可以挂失信用卡”,“怎么挂失信用卡”,“挂失信用卡的方法”,当答案库中存在请求语料或其扩展语料的说法时,都可以找到相应的答案反馈给用户。
此外,通过该方法生成的高级模板库可以根据用户的实际请求语料进行更新,因此所述方法还可以包括:
记录用户实际请求语料;
根据所述用户实际请求语料,更新所述高级模板库。
具体的,高级模板库更新的频率视具体情况而定,例如,可以预先设定更新周期;也可以为根据记录的请求语料的数量而定,例如,当请求语料数量达到设定的数目时,对高级模板库进行更新;当然,还可以根据记录的请求语料对高级模板库进行实时更新,例如,当记录的实际请求语料在已有的高级模板库中找不到合适的模板或用户反馈其获取的答案与预期有偏差时,可以根据上述方法自动对该请求语料进行抽象,并根据继承关系将其归入模板库中,并做好相应标识,通知模板库管理人员。
进一步地,该方法还可以扩展到智能问答的其它阶段。例如,在答案查找过程中,我们可以在构建高级模板库时,考虑请求语料中语义信息为施事、受事或词原型的同义词,以提高高级模板库的通用性。例如,请求语料为“西红柿是什么颜色?”,进行语料扩展时,可以根据“西红柿”的同义词进行扩展,如果扩展语料为“番茄是什么颜色?”,如果该扩展语料有一个答案为“番茄是红色的。”,则将该扩展语料的答案反馈给用户。而如果单纯地依靠关键词,“西红柿”和“番茄”是不可能匹配上的。以上举例仅为便于理解本发明,具体的实施方式这里不作具体限定。
本发明实施例提供的自动构建模板库的方法,通过提取请求语料的语义信息,然后根据语义信息对请求语料进行抽象得到相应的初级模板,并将初级模板归入初级模板库中,根据初级模板的语义信息对初级模板库中的模板进行聚类,并依此生成高级模板库,使得可以根据统一的标准自动对请求语料进行抽象,并对获取的初级模板进行聚类以生成高级模板库,提高了模板库中模板的通用性及重用度,减少了模板库的冗余,并且提高了模板查找的效率。
相应的,本发明还提供了一种自动构建模板库的系统,包括:
接收模块201,用于获取大量请求语料;
提取模块202,用于提取所述请求语料的语义信息;
初级模板库生成模块203,用于根据所述语义信息对所述请求语料进行抽象,得到对应所述请求语料的初级模板,并归入初级模板库;
高级模板库生成模块204,用于根据所述初级模板库中模板的语义信息,对所述初级模板库中的初级模板进行聚类,根据聚类结果生成高级模板库。
为了提升该系统生成的模板的通用性,所述初级模板库生成模块203包括:
多层次初级模板获取单元,用于根据请求语料的语义信息,对所述请求语料进行多层次抽象,获取所述请求语料的多层次初级模板;
多层次初级模板库构建单元,用于将所述请求语料的多层次初级模板按层次归入初级模板库。
在本实施例中,所述高级模板库生成模块204根据初级模板库生成模块203的结果,生成高级模板库,可以包括:
第一模板组获取单元,用于根据初级模板库中模板的语义信息,对初级模板进行聚类,获取模板组;
第一高级模板库构建单元,用于根据模板组之间的关系构建高级模板库。
进一步地,为了提升该系统生成的模板的通用性,对应抽象层次为多层的初级模板,所述高级模板库生成模块204包括:
第二模板组获取单元,用于根据初级模板库中模板的语义信息,对处于同一层次的初级模板进行聚类,同一类中的模板构成一个模板组,获取各层次初级模板对应的模板组;
第二高级模板库构建单元,用于根据各层次模板组之间的关系构建高级模板库。
在实际应用中,各层次模板组之间的关系为继承关系。
此外,所述系统还可以对生成的高级模板库进行更新,例如,根据用户实际请求语料,通过更新模块对高级模板库进行更新,所述系统还可以包括:
记录模块(图未示出),用于记录用户实际请求语料;
更新模块(图未示出),用于根据所述用户实际请求语料,更新高级模板库。
需要说明的是,在实际应用中,是否需对高级模板库中的模板进行更新,可以根据一个判断模块(图未示出)的结果来判断是否对高级模板库进行更新,因此所述系统还可以包括判断模块,用于判断是否对生成的高级模板库进行更新。
当然,在实际应用中,该系统还可进一步包括:存储模块(未图示),用于保存初级模板库、高级模板库等。这样,以方便对待处理请求语料进行计算机自动处理,并将该请求语料相应模板的答案反馈给用户。此外,还可用于记录用户的实际请求语料等,以便更新高级模板库。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种自动构建模板库的方法,其特征在于,包括:
获取大量请求语料;
提取所述请求语料的语义信息;
根据所述语义信息对所述请求语料进行抽象,得到对应所述请求语料的初级模板,并归入初级模板库;
根据所述初级模板库中模板的语义信息,对所述初级模板库中的初级模板进行聚类,根据聚类结果生成高级模板库。
2.根据权利要求1所述的方法,其特征在于,所述语义信息包括:词信息和句义信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述语义信息对所述请求语料进行抽象,得到对应所述请求语料的初级模板,并归入初级模板库包括:
根据请求语料的语义信息,对所述请求语料进行多层次抽象,获取所述请求语料的多层次初级模板;
将所述请求语料的多层次初级模板按层次归入初级模板库。
4.根据权利要求1所述的方法,其特征在于,所述根据所述初级模板库中模板的语义信息,对所述初级模板库中的初级模板进行聚类,根据聚类结果生成高级模板库包括:
根据初级模板库中模板的语义信息,对初级模板进行聚类,获取模板组;
根据模板组之间的关系构建高级模板库。
5.根据权利要求3所述的方法,其特征在于,对应同一个请求语料的不同层次的初级模板,层次低的初级模板继承层次高的初级模板。
6.根据权利要求4所述的方法,其特征在于,所述根据所述初级模板库中模板的语义信息,对所述初级模板库中的初级模板进行聚类,根据聚类结果生成高级模板库包括:
根据初级模板库中模板的语义信息,对处于同一层次的初级模板进行聚类,同一类中的模板构成一个模板组,获取各层次初级模板对应的模板组;
根据各层次模板组之间的关系构建高级模板库。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
记录用户实际请求语料;
根据所述用户实际请求语料,更新所述高级模板库。
8.一种自动构建模板库的系统,其特征在于,包括:
接收模块,用于获取大量请求语料;
提取模块,用于提取所述请求语料的语义信息;
初级模板库生成模块,用于根据所述语义信息对所述请求语料进行抽象,得到对应所述请求语料的初级模板,并归入初级模板库;
高级模板库生成模块,用于根据所述初级模板库中模板的语义信息,对所述初级模板库中的初级模板进行聚类,根据聚类结果生成高级模板库。
9.根据权利要求8所述的系统,其特征在于,所述初级模板库生成模块包括:
多层次初级模板获取单元,用于根据请求语料的语义信息,对所述请求语料进行多层次抽象,获取所述请求语料的多层次初级模板;
多层次初级模板库构建单元,用于将所述请求语料的多层次初级模板按层次归入初级模板库。
10.根据权利要求8所述的系统,其特征在于,所述高级模板库生成模块包括:
第一模板组获取单元,用于根据初级模板库中模板的语义信息,对初级模板进行聚类,获取模板组;
第一高级模板库构建单元,用于根据模板组之间的关系构建高级模板库。
11.根据权利要求10所述的系统,其特征在于,所述高级模板库生成模块包括:
第二模板组获取单元,用于根据初级模板库中模板的语义信息,对处于同一层次的初级模板进行聚类,同一类中的模板构成一个模板组,获取各层次初级模板对应的模板组;
第二高级模板库构建单元,用于根据各层次模板组之间的关系构建高级模板库。
12.根据权利要求8至11任一项所述的系统,其特征在于,所述系统还包括:
记录模块,用于记录用户实际请求语料;
更新模块,用于根据所述用户实际请求语料,更新高级模板库。
CN201510427822.2A 2015-07-17 2015-07-17 一种自动构建模板库的方法及系统 Active CN104991955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510427822.2A CN104991955B (zh) 2015-07-17 2015-07-17 一种自动构建模板库的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510427822.2A CN104991955B (zh) 2015-07-17 2015-07-17 一种自动构建模板库的方法及系统

Publications (2)

Publication Number Publication Date
CN104991955A true CN104991955A (zh) 2015-10-21
CN104991955B CN104991955B (zh) 2018-06-12

Family

ID=54303770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510427822.2A Active CN104991955B (zh) 2015-07-17 2015-07-17 一种自动构建模板库的方法及系统

Country Status (1)

Country Link
CN (1) CN104991955B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468694A (zh) * 2015-11-17 2016-04-06 小米科技有限责任公司 挖掘信息模板的方法及装置
CN105653620A (zh) * 2015-12-25 2016-06-08 上海智臻智能网络科技股份有限公司 智能问答系统的日志分析方法及装置
CN105677637A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统中抽象语义库的更新方法及更新装置
CN105677783A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统的信息处理方法及装置
CN105868179A (zh) * 2016-04-08 2016-08-17 上海智臻智能网络科技股份有限公司 一种智能问答方法及装置
CN106713116A (zh) * 2016-06-17 2017-05-24 腾讯科技(深圳)有限公司 信息处理方法、装置及系统
CN106777191A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 一种基于搜索引擎的检索模式生成方法及装置
CN106844482A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 一种基于搜索引擎的检索信息匹配方法及装置
CN107463549A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 一种提取实例模板的方法和设备
CN107632975A (zh) * 2017-08-09 2018-01-26 联动优势科技有限公司 一种词典建立方法及设备
CN108509412A (zh) * 2018-03-02 2018-09-07 北京搜狗科技发展有限公司 一种数据处理方法、装置、电子设备以及存储介质
CN109063075A (zh) * 2015-12-31 2018-12-21 上海智臻智能网络科技股份有限公司 优化抽象语义库的方法、装置及存储介质
CN110019749A (zh) * 2018-09-28 2019-07-16 北京百度网讯科技有限公司 生成vqa训练数据的方法、装置、设备和计算机可读介质
CN111159350A (zh) * 2019-12-30 2020-05-15 科大讯飞股份有限公司 用户说法挖掘扩增方法、装置、终端及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1665338A (zh) * 2005-03-30 2005-09-07 结信网络技术服务(上海)有限公司 移动智能企业或组织服务定位系统
US7870117B1 (en) * 2006-06-01 2011-01-11 Monster Worldwide, Inc. Constructing a search query to execute a contextual personalized search of a knowledge base
CN103593410A (zh) * 2013-10-22 2014-02-19 上海交通大学 通过替换概念性词语进行搜索推荐系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1665338A (zh) * 2005-03-30 2005-09-07 结信网络技术服务(上海)有限公司 移动智能企业或组织服务定位系统
US7870117B1 (en) * 2006-06-01 2011-01-11 Monster Worldwide, Inc. Constructing a search query to execute a contextual personalized search of a knowledge base
CN103593410A (zh) * 2013-10-22 2014-02-19 上海交通大学 通过替换概念性词语进行搜索推荐系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林贤明: "基于模板的机器翻译系统中模板库的自动构建技术", 《计算机应用》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468694B (zh) * 2015-11-17 2019-10-15 小米科技有限责任公司 挖掘信息模板的方法及装置
WO2017084179A1 (zh) * 2015-11-17 2017-05-26 小米科技有限责任公司 挖掘信息模板的方法及装置
US10180976B2 (en) 2015-11-17 2019-01-15 Xiaomi Inc. Method and device for mining an information template
CN105468694A (zh) * 2015-11-17 2016-04-06 小米科技有限责任公司 挖掘信息模板的方法及装置
CN105653620A (zh) * 2015-12-25 2016-06-08 上海智臻智能网络科技股份有限公司 智能问答系统的日志分析方法及装置
CN105653620B (zh) * 2015-12-25 2020-05-22 上海智臻智能网络科技股份有限公司 智能问答系统的日志分析方法及装置
CN105677637A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统中抽象语义库的更新方法及更新装置
CN105677783A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统的信息处理方法及装置
CN109063075A (zh) * 2015-12-31 2018-12-21 上海智臻智能网络科技股份有限公司 优化抽象语义库的方法、装置及存储介质
CN105868179A (zh) * 2016-04-08 2016-08-17 上海智臻智能网络科技股份有限公司 一种智能问答方法及装置
CN107463549A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 一种提取实例模板的方法和设备
CN107463549B (zh) * 2016-06-02 2021-02-02 阿里巴巴集团控股有限公司 一种提取实例模板的方法和设备
CN106713116B (zh) * 2016-06-17 2018-09-28 腾讯科技(深圳)有限公司 信息处理方法、装置及系统
CN106713116A (zh) * 2016-06-17 2017-05-24 腾讯科技(深圳)有限公司 信息处理方法、装置及系统
CN106844482A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 一种基于搜索引擎的检索信息匹配方法及装置
CN106777191A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 一种基于搜索引擎的检索模式生成方法及装置
CN107632975A (zh) * 2017-08-09 2018-01-26 联动优势科技有限公司 一种词典建立方法及设备
CN108509412A (zh) * 2018-03-02 2018-09-07 北京搜狗科技发展有限公司 一种数据处理方法、装置、电子设备以及存储介质
CN110019749A (zh) * 2018-09-28 2019-07-16 北京百度网讯科技有限公司 生成vqa训练数据的方法、装置、设备和计算机可读介质
CN110019749B (zh) * 2018-09-28 2021-06-15 北京百度网讯科技有限公司 生成vqa训练数据的方法、装置、设备和计算机可读介质
US11416709B2 (en) 2018-09-28 2022-08-16 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and computer readable medium for generating VQA training data
CN111159350A (zh) * 2019-12-30 2020-05-15 科大讯飞股份有限公司 用户说法挖掘扩增方法、装置、终端及存储介质
CN111159350B (zh) * 2019-12-30 2022-12-06 科大讯飞股份有限公司 用户说法挖掘扩增方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN104991955B (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN104991955A (zh) 一种自动构建模板库的方法及系统
CN107609052B (zh) 一种基于语义三角的领域知识图谱的生成方法及装置
CN103942220A (zh) 一种适用于it运维系统的工单智能关联知识库知识的方法
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN109446305A (zh) 智能旅游客服系统的构建方法以及系统
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN105608199A (zh) 用于智能问答系统中的标准问的扩展方法和装置
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN104281615A (zh) 一种投诉处理的方法和系统
CN108027814A (zh) 停用词识别方法与装置
CN110781284A (zh) 基于知识图谱的问答方法、装置和存储介质
CN101452443B (zh) 逻辑结构模型创建辅助设备和方法
CN109902117A (zh) 业务系统分析方法和装置
CN105868183A (zh) 一种预测员工离职的方法及装置
CN109766451A (zh) 一种云计算平台及其调度、数据分析方法
CN104268247A (zh) 一种基于模糊层次分析的主数据归集方法
CN108829651A (zh) 一种公文处理的方法、装置、终端设备及存储介质
CN109858025A (zh) 一种地址标准化语料的分词方法及系统
CN110110143B (zh) 一种视频分类方法及装置
CN105550361A (zh) 日志处理方法及装置和问答信息处理方法及装置
CN106775694B (zh) 一种软件配置代码制品的层次分类方法
CN108549672A (zh) 一种数据智能分析方法及系统
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN116049376A (zh) 一种信创知识检索回复的方法、装置和系统
CN110866007A (zh) 大数据应用和表的信息管理方法、系统和计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170706

Address after: 230088, Hefei province high tech Zone, 2800 innovation Avenue, 288 innovation industry park, H2 building, room two, Anhui

Applicant after: Anhui Puji Information Technology Co.,Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: IFLYTEK Co.,Ltd.

CB02 Change of applicant information

Address after: 230088, Hefei province high tech Zone, 2800 innovation Avenue, 288 innovation industry park, H2 building, room two, Anhui

Applicant after: ANHUI IFLYTEK MEDICAL INFORMATION TECHNOLOGY CO.,LTD.

Address before: 230088, Hefei province high tech Zone, 2800 innovation Avenue, 288 innovation industry park, H2 building, room two, Anhui

Applicant before: Anhui Puji Information Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 230088 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei, Anhui Province

Patentee after: Anhui Xunfei Medical Co.,Ltd.

Address before: Room 288, H2 / F, phase II, innovation industrial park, 2800 innovation Avenue, high tech Zone, Hefei City, Anhui Province, 230088

Patentee before: ANHUI IFLYTEK MEDICAL INFORMATION TECHNOLOGY CO.,LTD.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 230088 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei, Anhui Province

Patentee after: IFLYTEK Medical Technology Co.,Ltd.

Address before: 230088 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei, Anhui Province

Patentee before: Anhui Xunfei Medical Co.,Ltd.