CN107256227A - 面向知识内容的语义概念扩展生成方法与装置 - Google Patents

面向知识内容的语义概念扩展生成方法与装置 Download PDF

Info

Publication number
CN107256227A
CN107256227A CN201710295522.2A CN201710295522A CN107256227A CN 107256227 A CN107256227 A CN 107256227A CN 201710295522 A CN201710295522 A CN 201710295522A CN 107256227 A CN107256227 A CN 107256227A
Authority
CN
China
Prior art keywords
semantic concept
knowledge content
group
word
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710295522.2A
Other languages
English (en)
Other versions
CN107256227B (zh
Inventor
蒋宏飞
陈飞
崔培君
乔思龙
张青
晋耀红
杨凯程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Intelligent Technology Co., Ltd
Original Assignee
Beijing Shenzhou Taiyue Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenzhou Taiyue Software Co Ltd filed Critical Beijing Shenzhou Taiyue Software Co Ltd
Priority to CN201710295522.2A priority Critical patent/CN107256227B/zh
Publication of CN107256227A publication Critical patent/CN107256227A/zh
Application granted granted Critical
Publication of CN107256227B publication Critical patent/CN107256227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Abstract

本发明实施例公开了一种面向知识内容的语义概念扩展生成方法与装置。所述方法包括:接收知识内容;根据所述知识内容的特征信息确定所述知识内容的结构类型;从预存储的抽取规则中选择与所述知识内容的结构类型相匹配的目标抽取规则;按照所述目标抽取规则抽取所述知识内容中的字符段,得到第一组语义概念。与现有技术相比,本方案能够基于概念扩展技术,以语义概念对应的知识内容自动生成扩展语义概念,不仅代替了人工操作,能够大量节省时间,提高效率,而且,本方案以知识内容作为参考信息,所生成的语义概念也更为全面。

Description

面向知识内容的语义概念扩展生成方法与装置
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种面向知识内容的语义概念扩展生成方法与装置。
背景技术
目前,随着人们生活质量的提高,服务行业所提供的服务项目也越来越完善,为了节省人力成本,同时也为了向人们提供更加快捷方便的服务,服务行业的办事机构,例如,银行办事大厅等,通常设置智能问答设备,用户可在智能问答设备中输入想了解的知识内容的语义概念,触发智能问答设备显示相应的知识内容。
基于智能问答设备的功能,通常,在投入使用之前,相关工作人员需要根据该服务行业的常见问题及其解答,整理得到每一条语义概念及其相应知识内容的对应关系,并将该对应关系存储到智能问答设备的数据库中,从而使得智能问答设备在接收到用户输入的语义概念时,根据对应关系调取与语义概念相应的知识内容,并向用户显示。
然而,由于用户的自主性较强,对应同一条知识内容的调取,不同用户所输入的语义概念可能不同,例如,调取一条支付流程相关的知识内容,用户A输入“怎么支付”,用户B输入“怎么付款”,用户C输入“支付流程是什么”,所以,为了提高智能问答设备的适用性,相关工作人员需要将一条知识内容对应的多条可能的语义概念全部整理,并输入到数据库。由此可见,现有的通过人工整理语义概念的方式,不仅时间长,效率低,而且,人工整理的语义概念也很难覆盖的较为全面。
发明内容
本发明实施例提供了一种面向知识内容的语义概念扩展生成方法与装置,以解决现有技术时间长,效率低,而且语义概念覆盖不全面的问题。
第一方面,本发明实施例提供了一种面向知识内容的语义概念扩展生成方法,该方法包括:
接收知识内容;
根据所述知识内容的特征信息确定所述知识内容的结构类型;
从预存储的抽取规则中选择与所述知识内容的结构类型相匹配的目标抽取规则;
按照所述目标抽取规则抽取所述知识内容中的字符段,得到第一组语义概念。
结合第一方面,在第一方面第一种可能的实现方式中,在得到第一组语义概念之后,还包括:
判断所述知识内容所包含的字符的数量是否大于或者等于预设阈值;
如果所述知识内容所包含的字符的数量大于或者等于所述预设阈值,提取所述知识内容中的关键词或者关键句作为第二组语义概念;
如果所述知识内容所包含的字符的数量小于所述预设阈值,从所述知识内容中抽取业务词;从预先接收的参考语义概念中抽取关键词;将所述业务词和所述参考语义概念的关键词组合,得到所述第二组语义概念;其中,所述业务词是所述知识内容中属于预设业务类型的词;
提取所述第一组语义概念和所述第二组语义概念中相同的语义概念作为扩展语义概念。
结合第一方面,在第一方面第二种可能的实现方式中,所述从所述知识内容中抽取业务词包括:
对所述知识内容执行分词操作,得到若干个基础词;
去除所述基础词中的停用词,得到待分类词;
根据所述待分类词的字符分别遍历预先创建的词库中的字符;
当查找到所述待分类词时,为所述待分类词标注相应词库对应的类型标签,得到已分类词;
从所述已分类词中确定标注有所述业务类型标签的词,得到所述业务词。
结合第一方面,在第一方面第三种可能的实现方式中,所述将所述业务词和所述参考语义概念的关键词组合,包括:
接收组合指令;
按照所述组合指令中的顺序标识排列所述业务词和所述关键词的顺序。
第二方面,本发明实施例还提供了一种面向知识内容的语义概念扩展生成方法,所述方法包括:
接收知识内容和与所述知识内容相对应的参考语义概念;
执行第一生成过程、第二生成过程、第三生成过程和第四生成过程,分别得到第一组语义概念、第二组语义概念、第三组语义概念和第四组语义概念;
其中,
所述第一生成过程包括:根据所述知识内容的字符类型确定所述知识内容的结构类型;从预存储的抽取规则中选择与所述知识内容的结构类型相匹配的目标抽取规则;按照所述目标抽取规则抽取所述知识内容中的字符段,得到所述第一组语义概念;
所述第二生成过程包括:从所述知识内容中抽取业务词;从所述参考语义概念中抽取关键词;将所述业务词和所述参考语义概念的关键词组合,得到所述第二组语义概念;其中,所述业务词是所述知识内容中属于预设业务类型的词;
所述第三生成过程包括:提取所述知识内容中的关键词作为所述第三组语义概念;
所述第四生成过程包括:提取所述知识内容中的关键句作为所述第四组语义概念;
提取所述第一组语义概念、所述第二组语义概念、所述第三组语义概念和所述第四组语义概念中相同的语义概念作为扩展语义概念。
第三方面,本发明实施例还提供了一种面向知识内容的语义概念扩展生成装置,所述装置包括:
接收模块,用于接收知识内容;
确定模块,用于根据所述知识内容的特征信息确定所述知识内容的结构类型;
选择模块,用于从预存储的抽取规则中选择与所述知识内容的结构类型相匹配的目标抽取规则;
抽取模块,用于按照所述目标抽取规则抽取所述知识内容中的字符段,得到第一组语义概念。
结合第三方面,在第三方面第一种可能的实现方式中,所述装置还包括:判断模块、提取模块和组合模块,其中,
所述判断模块,用于判断所述知识内容所包含的字符的数量是否大于或者等于预设阈值;
所述提取模块,用于在所述知识内容所包含的字符的数量大于或者等于所述预设阈值时,提取所述知识内容中的关键词或者关键句作为第二组语义概念;
所述抽取模块,还用于在所述知识内容所包含的字符的数量小于所述预设阈值时,从所述知识内容中抽取业务词,并从预先接收的参考语义概念中抽取关键词;其中,所述业务词是所述知识内容中属于预设业务类型的词;
所述组合模块,用于提取所述第一组语义概念和所述第二组语义概念中相同的语义概念作为扩展语义概念。
结合第三方面,在第三方面第二种可能的实现方式中,所述抽取模块,具体用于对所述知识内容执行分词操作,得到若干个基础词;根据所述待分类词的字符分别遍历预先创建的词库中的字符;当查找到所述待分类词时,为所述待分类词标注相应词库对应的类型标签,得到已分类词;从所述已分类词中确定标注有所述业务类型标签的词,得到所述业务词。
结合第三方面,在第三方面第三种可能的实现方式中,所述组合模块,具体用于接收组合指令;按照所述组合指令中的顺序标识排列所述业务词和所述关键词的顺序。
第四方面,本发明实施例还提供了一种面向知识内容的语义概念扩展生成装置,所述装置包括:
接收模块,用于接收知识内容和与所述知识内容相对应的参考语义概念;
执行模块,用于执行第一生成过程、第二生成过程、第三生成过程和第四生成过程,分别得到第一组语义概念、第二组语义概念、第三组语义概念和第四组语义概念;
其中,
所述第一生成过程包括:根据所述知识内容的字符类型确定所述知识内容的结构类型;从预存储的抽取规则中选择与所述知识内容的结构类型相匹配的目标抽取规则;按照所述目标抽取规则抽取所述知识内容中的字符段,得到所述第一组语义概念;
所述第二生成过程包括:从所述知识内容中抽取业务词;从所述参考语义概念中抽取关键词;将所述业务词和所述参考语义概念的关键词组合,得到所述第二组语义概念;其中,所述业务词是所述知识内容中属于预设业务类型的词;
所述第三生成过程包括:提取所述知识内容中的关键词作为所述第三组语义概念;
所述第四生成过程包括:提取所述知识内容中的关键句作为所述第四组语义概念;
提取模块,用于提取所述第一组语义概念、所述第二组语义概念、所述第三组语义概念和所述第四组语义概念中相同的语义概念作为扩展语义概念。
为了解决现有技术时间长,效率低,而且语义概念覆盖不全面的问题,本方案中,可以在智能问答设备中预先存储多种语义概念抽取规则,不同知识内容的结构和组成可对应不同的语义概念抽取规则。在接收到工作人员输入或导入的知识内容之后,智能问答设备可以首先根据知识内容的字符类型确定该知识内容的结构类型,进而从预存储的抽取规则中选择与知识内容的结构类型相匹配的目标抽取规则,从而能够按照目标抽取规则从知识内容中抽取字符段,得到语义概念。由此可见,本方案能够基于概念扩展技术,以语义概念对应的知识内容自动生成扩展语义概念,不仅代替了人工操作,能够大量节省时间,提高效率,而且,本方案以知识内容作为参考信息,所生成的语义概念也更为全面。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的面向知识内容的语义概念扩展生成方法的方法流程图;
图2为本发明实施例提供的面向知识内容的语义概念扩展生成方法的第二种实施方式的方法流程图;
图3为本发明实施例提供的面向知识内容的语义概念扩展生成方法的第三种实施方式的方法流程图;
图4为本发明实施例提供的面向知识内容的语义概念扩展生成装置的结构示意图;
图5为本发明实施例提供的面向知识内容的语义概念扩展生成装置的第二种实施方式的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
其中,现有技术中,当智能问答设备接收到用户输入的语义概念之后,从预存储的语义概念与知识内容的对应关系中遍历语义概念,当从对应关系中查找到该语义概念之后,读取该语义概念对应的知识内容,并在屏幕上显示,以向用户展示相应知识内容。由此可见,用户输入的语义概念,应当预先存储在智能问答设备的数据库中,这样用户才能够调取相应的知识内容;所以,相关工作人员在整理语义概念时,需要想到所有可能的语义概念,而人工想到所有可能的语义概念的方式,不仅需要耗费大量的脑力劳动,而且基本上无法实现。有鉴于此,提出了本发明实施例的技术方案。
参见图1,图1是本发明实施例提供的面向知识内容的语义概念扩展生成方法的方法流程图。图1所示的面向知识内容的语义概念扩展生成方法,能够自动生成语义概念,从而能够大量节省时间,提高效率。本实施例包括下述步骤:
步骤S101,接收知识内容。
其中,本方案主要是基于语义概念对应的知识内容生成多条扩展的语义概念。有鉴于此,本方案中,智能问答设备在接收到工作人员输入的知识内容之后,以该知识内容作为基础概念,生成语义概念。
当然,需要指出的是,本方案中,知识内容可以是一个参考问题对应的答案,其一般是用户想要了解的详细内容,例如,微信办理信用卡的方式是:步骤1,填写用户信息,步骤2,等一系列步骤信息。
步骤S102,根据知识内容的特征信息确定知识内容的结构类型。
其中,特征信息可以是知识内容中特定的字符,例如,可以是特定的标点符号、数字或字母标号,或者特定的字符。
具体的,通常,根据业务内容的展示形式不同,知识内容的结构和组成模式也不相同,例如,“微信办理信用卡的方式是:”,和“办理A业务的条件包括:”的结构通常是,标题内容和办理步骤,其组成通常为,字符-冒号-步骤标号-字符-分号,一直到句号。再例如,办理某项业务的支付方式对应的知识内容可以是,“A、支付宝支付;B、微信支付;C、银行卡支付;D、现金支付”,其组成中,包括多种选择,并且每种选择均以字母作为标识。因此,为了便于根据知识内容生成语义概念,本方案可以预先按照知识内容的结构,将知识内容归纳为几种结构类型的内容,从而便于为生成语义概念提供的生成规则。
基于此,在接收到工作人员输入的知识内容之后,本步骤中,智能问答设备可以从知识内容的第一个字符开始识别其字符类型,确定该字符是文字字符还是标点符号,如果是标点符号,可以进一步确认其具体是什么标点符号,从而能够根据知识内容的字符类型确定其结构类型。
应该说明的是,知识内容中的特征信息可以是知识内容本身固有的,也可以是在知识预加工时被赋予的。
步骤S103,从预存储的抽取规则中选择与知识内容的结构类型相匹配的目标抽取规则。
其中,抽取规则是相关工作人员根据知识内容的结构类型预先设置的,每一种结构类型对应一种抽取规则。并且,在本方案中,该抽取规则可以但不限于是正则表达式。
由于本方案中,知识内容的结构类型与抽取规则一一对应,因此,本方案中,可以将结构类型与抽取规则对应存储。有鉴于此,为了按照合适的抽取规则从知识内容中抽取语义概念,在确定知识内容的结构类型之后,智能问答设备可以遍历已存储的结构类型,并将查找到的结构类型对应的抽取规则,作为适用于该知识内容的目标抽取规则。
步骤S104,按照目标抽取规则抽取知识内容中的字符段。
在上述步骤的基础上,在确定目标抽取规则之后,可以按照目标抽取规则从知识内容中抽取字符段,并将所抽取的字符段作为语义概念。
例如,当知识内容是“微信办理信用卡的方式是:步骤1,填写用户信息,步骤2,等一系列步骤”,智能问答设备可以在识别出标点符号“:”之后,确定该知识内容的结构类型,并确定该结构类型对应的抽取规则,从而可以按照抽取规则抽取出字符段“微信办理信用卡的方式”,作为该知识内容的语义概念。
当然,上述仅为本方案的一种可选实施方式,本方案还可以根据需求设置其他的结构类型识别方式,以及抽取语义概念的方式,具体的,实施过程与上述描述类似,本方案此处不再详述。
由此可见,本发明实施例的技术方案,能够基于概念扩展技术,以语义概念对应的知识内容自动生成语义概念,不仅代替了人工操作,能够大量节省时间,提高效率,而且,本方案以知识内容作为参考信息,所生成的语义概念也更为全面。
此外,需要说明的是,基于概念扩展技术生成语义概念的实施方式可以有多种,而每一种生成语义概念的实施方式,可能针对某一类结构和组成的知识内容生成的语义概念相对准确,但是,针对其他结构和组成的知识内容,生成的语义概念数量相对较少,或者不准确,并且,每一种实施方式所生成的语义概念,可能也存在部分不精确的内容。例如,上述根据抽取规则从知识内容中抽取字符段作为语义概念的方式,由于抽取规则以一定数量的知识内容作为样例生成的,因此,存在部分知识内容可能于相应规则并不匹配,因此,所抽取的语义概念不准确,或者是空值。
基于此,为了进一步优化上述实施例所描述的实施过程,可以将上述生成过程所得到语义概念作为第一组语义概念,在上述描述的基础上,还可以进一步判断知识内容所包含的字符的数量是否大于或者等于预设阈值,如果知识内容所包含的字符的数量大于或者等于预设阈值,则可以认为该知识内容相对较长,可以从该知识内容中抽取关键字,或者关键句作为第二组语义概念;而如果知识内容所包含的字符的数量小于预设阈值,则可以认为该知识内容相对较短,可以从知识内容中抽取业务词,并从预先接收的参考语义概念中提取关键词,然后,在接收到组合指令之后,按照组合指令包含的的顺序标识确定业务词和关键词的排序,得到第二组语义概念。最后,选择第一组语义概念和第二组语义概念中相同的语义概念作为最终扩展的语义概念。
其中,需要说明的是,参考语义概念是智能问答设备在接收知识内容时,一同接收的与该知识内容相对应的较为常见的语义概念,例如,当该知识内容是一段答案时,改答案对应一种较为常见的问题即为本方案所述的参考语义概念。
其中,业务词是能够表示业务内容的词汇,例如,银行业务中“网上银行”、“理财”、“支票”和“信用卡”等,均是银行业务中的业务词。在本方案中,相关技术人员,可以预先设置同义词、业务词和集合词词库,其中,同义词词库中可以将同义词对应存储,并为该系列的同义词设置含义标签。例如,可以将“付款”、“支付”、“付钱”和“给钱”作为同义词对应存储在同义词词库中,并为该系列的词设置“支付”的标签,以表示该系列词汇的含义。集合词是将词汇按照类别归纳,并标注相应类别的标签。例如,“电视”和“冰箱”在集合词词库中,标注为“家电”。
具体的,基于预设的词库,本方案从知识内容中抽取业务词,可以执行为,当智能问答设备接收到知识内容和参考语义概念之后,可以首先对知识内容执行分词操作,即,将知识内容的句子分为若干个词汇,从而得到基础词,然后,将基础词中的停用词去除,得到待分类词,进而,智能问答设备可以遍历预设的词库中词,当查找到待分类词时,将该待分类词标注上相应词库中对应的标签,最后,可以将标注业务类型标签的待分类词确定为业务词。
当然,其中分词和去停用词等技术,是本领域技术人员所熟知的技术,本发明实施例此处不再赘述。
例如,知识内容“微信办理信用卡的方式是”,可以首先分词得到“微信”,“办理”,“信用卡”,“的”,“方式”和“是”,其中,“的”,“方式”和“是”是停用词,可以去除,得到“微信”,“办理”和“信用卡”,然后,遍历同义词词库、业务词词库和集合词词库,从而能够在同义词词库中查找到“微信”,并将“微信”标注为“微信”,同时,在同义词词库中查找到“办理”的同义词“处理”等,在业务词词库中查找到“信用卡”,并将“信用卡”标注为业务词。
此外,本实施例中,可以但不限于使用TextRank方法提取关键词和关键句,而本方案中提取关键词和关键句的技术均是本领域技术人员所熟知的技术,本发明实施例不再详述。
由上述描述可知,本方案在生成第一组语义概念之后,还可以根据知识内容的长度,选择合适的实施方式生成第二组语义概念,进而,通过选取两组语义概念中相同语义概念的方式确定最终的语义概念,从而能够在过滤每组语义概念中不准确的信息的基础上,保证所得到的语义概念较为全面。
需要指出的是,上述实施例仅仅是本方案的一种实施方式,本方案还可以设置若干种语义概念生成过程,当智能问答设备接收到知识内容和参考语义概念之后,可以触发该若干种生成过程全部执行,每种生成过程可以分别生成一组语义概念,进而,再取该若干组语义概念中相同的语义概念,得到最终的语义概念。
具体的,参见图2,图2为本发明实施例提供的面向知识内容的语义概念扩展生成方法的第二种实施方式的方法流程图,在本实施例中,可以设置四种语义概念生成过程,在接收到知识内容和与知识内容相对应的参考语义概念之后,智能问答设备可以按照顺序执行第一生成过程、第二生成过程、第三生成过程和第四生成过程,分别得到第一组语义概念、第二组语义概念、第三组语义概念和第四组语义概念,并提取第一组语义概念、第二组语义概念、第三组语义概念和第四组语义概念中相同的语义概念作为扩展语义概念。
其中,在本实施例中,第一生成过程可以是按照抽取规则抽取知识内容中的字符段的过程,包括根据知识内容的字符类型确定知识内容的结构类型;从预存储的抽取规则中选择与知识内容的结构类型相匹配的目标抽取规则;按照目标抽取规则抽取知识内容中的字符段,得到第一组语义概念。
第二生成过程包括从知识内容中抽取业务词;从参考语义概念中抽取关键词;将业务词和参考语义概念的关键词组合,得到第二组语义概念。
第三生成过程包括:提取知识内容中的关键词作为第三组语义概念。
第四生成过程包括:提取知识内容中的关键句作为第四组语义概念。
具体的,每种生成过程在图1所示的实施例中均已详细描述,本发明实施例此处不再详述。
需要说明的是,上述描述仅为本方案的一种可选示例,本方案中,四种生成过程的执行顺序可以任意调整,本方案对此不做限制。
此外,在另外一种实施方式中,上述四种生成过程还能够同时执行,参见图3,图3为本发明实施例提供的面向知识内容的语义概念扩展生成方法的第三种实施方式的方法流程图,在本实施例中,智能问答设备在接收到知识内容和与知识内容相对应的参考语义概念之后,可以触发四种生成过程同时执行,进而生成第一组语义概念、第二组语义概念、第三组语义概念和第四组语义概念,并提取第一组语义概念、第二组语义概念、第三组语义概念和第四组语义概念中相同的语义概念作为扩展语义概念。
具体的,四种生成过程及其具体实施过程详见上述描述,本发明实施例此处不再赘述。
需要说明的是,图2和图3所示均为本方案的可选示例,对本方案不构成限制,本方案中,基于概念扩展生成语义概念的实施方式还可以包括其他形式,并且,智能问答设备中也可以设置其他数量的生成过程,本发明实施例对此不做限制。
由此可见,本方案的面向知识内容的语义概念扩展生成方法,能够基于概念扩展技术自动生成语义概念,从而能够节省时间,提高生成效率。且采用多种实施方式共同执行,得到多组语义概念,并取多组语义概念中相同语义概念的方式,还能够使得每种实施方式规避其他实施方式的不足,保证所得到的语义概念准确而且全面。
与上述实现方法相对应的,本发明实施例还提供了一种面向知识内容的语义概念扩展生成装置,参见图4,图4为本发明实施例提供的面向知识内容的语义概念扩展生成装置的结构示意图,所述装置用于执行图1所对应的面向知识内容的语义概念扩展生成方法。
所述装置包括:接收模块11、确定模块12、选择模块13和抽取模块14,其中,接收模块11,用于接收知识内容;确定模块12,用于根据所述知识内容的特征信息确定所述知识内容的结构类型;选择模块13,用于从预存储的抽取规则中选择与所述知识内容的结构类型相匹配的目标抽取规则;抽取模块14,用于按照所述目标抽取规则抽取所述知识内容中的字符段,得到第一组语义概念。
在上述描述基础上,在另一种实施场景中,所述装置还包括:判断模块、提取模块和组合模块,其中,
所述判断模块,用于判断所述知识内容所包含的字符的数量是否大于或者等于预设阈值;
所述提取模块,用于在所述知识内容所包含的字符的数量大于或者等于所述预设阈值时,提取所述知识内容中的关键词或者关键句作为第二组语义概念;
所述抽取模块,还用于在所述知识内容所包含的字符的数量小于所述预设阈值时,从所述知识内容中抽取业务词,并从预先接收的参考语义概念中抽取关键词;其中,所述业务词是所述知识内容中属于预设业务类型的词;
所述组合模块,用于提取所述第一组语义概念和所述第二组语义概念中相同的语义概念作为扩展语义概念。
在一个具体实施例中,所述抽取模块,具体用于对所述知识内容执行分词操作,得到若干个基础词;根据所述待分类词的字符分别遍历预先创建的词库中的字符;当查找到所述待分类词时,为所述待分类词标注相应词库对应的类型标签,得到已分类词;从所述已分类词中确定标注有所述业务类型标签的词,得到所述业务词。
在另一种具体实施场景中,所述组合模块,用于接收组合指令;按照所述组合指令中的顺序标识排列所述业务词和所述关键词的顺序。
其中,所述装置中各个模块的功能和作用的实现过程,详见上述图1所示的方法对应的实现过程,本发明实施例在此不再赘述。
此外,与图2和图3所示的实现方法相对应的,本方案还提供了一种面向知识内容的语义概念扩展生成装置,参见图5,图5为本发明实施例提供的面向知识内容的语义概念扩展生成装置的第二种实施方式的结构示意图,所述装置用于执行图2和图3所对应的面向知识内容的语义概念扩展生成方法。
所述装置包括:接收模块21、执行模块22和提取模块23,其中,接收模块21,用于接收知识内容和与所述知识内容相对应的参考语义概念;执行模块22,用于执行第一生成过程、第二生成过程、第三生成过程和第四生成过程,分别得到第一组语义概念、第二组语义概念、第三组语义概念和第四组语义概念;提取模块23,用于提取所述第一组语义概念、所述第二组语义概念、所述第三组语义概念和所述第四组语义概念中相同的语义概念作为扩展语义概念。
需要说明的是,在本实施例中,所述第一生成过程包括:根据所述知识内容的字符类型确定所述知识内容的结构类型;从预存储的抽取规则中选择与所述知识内容的结构类型相匹配的目标抽取规则;按照所述目标抽取规则抽取所述知识内容中的字符段,得到所述第一组语义概念;所述第二生成过程包括:从所述知识内容中抽取业务词;从所述参考语义概念中抽取关键词;将所述业务词和所述参考语义概念的关键词组合,得到所述第二组语义概念;其中,所述业务词是所述知识内容中属于预设业务类型的词;所述第三生成过程包括:提取所述知识内容中的关键词作为所述第三组语义概念;所述第四生成过程包括:提取所述知识内容中的关键句作为所述第四组语义概念。具体的,详见上述方法实施例的描述,本方案此处不再赘述。
综合上述,与现有技术相比,本方案的面向知识内容的语义概念扩展生成方法,能够基于概念扩展技术自动生成语义概念,从而能够节省时间,提高生成效率。且采用多种实施方式共同执行,得到多组语义概念,并取多组语义概念中相同语义概念的方式,还能够使得每种实施方式规避其他实施方式的不足,保证所得到的语义概念准确而且全面。
尽管已描述了本发明的可选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种面向知识内容的语义概念扩展生成方法,其特征在于,所述方法包括:
接收知识内容;
根据所述知识内容的特征信息确定所述知识内容的结构类型;
从预存储的抽取规则中选择与所述知识内容的结构类型相匹配的目标抽取规则;
按照所述目标抽取规则抽取所述知识内容中的字符段,得到第一组语义概念。
2.如权利要求1所述的面向知识内容的语义概念扩展生成方法,其特征在于,在得到第一组语义概念之后,还包括:
判断所述知识内容所包含的字符的数量是否大于或者等于预设阈值;
如果所述知识内容所包含的字符的数量大于或者等于所述预设阈值,提取所述知识内容中的关键词或者关键句作为第二组语义概念;
如果所述知识内容所包含的字符的数量小于所述预设阈值,从所述知识内容中抽取业务词;从预先接收的参考语义概念中抽取关键词;将所述业务词和所述参考语义概念的关键词组合,得到所述第二组语义概念;其中,所述业务词是所述知识内容中属于预设业务类型的词;
提取所述第一组语义概念和所述第二组语义概念中相同的语义概念作为扩展语义概念。
3.如权利要求2所述的面向知识内容的语义概念扩展生成方法,其特征在于,所述从所述知识内容中抽取业务词包括:
对所述知识内容执行分词操作,得到若干个基础词;
去除所述基础词中的停用词,得到待分类词;
根据所述待分类词的字符分别遍历预先创建的词库中的字符;
当查找到所述待分类词时,为所述待分类词标注相应词库对应的类型标签,得到已分类词;
从所述已分类词中确定标注有所述业务类型标签的词,得到所述业务词。
4.如权利要求2所述的面向知识内容的语义概念扩展生成方法,其特征在于,所述将所述业务词和所述参考语义概念的关键词组合,包括:
接收组合指令;
按照所述组合指令中的顺序标识排列所述业务词和所述关键词的顺序。
5.一种面向知识内容的语义概念扩展生成方法,其特征在于,所述方法包括:
接收知识内容和与所述知识内容相对应的参考语义概念;
执行第一生成过程、第二生成过程、第三生成过程和第四生成过程,分别得到第一组语义概念、第二组语义概念、第三组语义概念和第四组语义概念;
其中,
所述第一生成过程包括:根据所述知识内容的字符类型确定所述知识内容的结构类型;从预存储的抽取规则中选择与所述知识内容的结构类型相匹配的目标抽取规则;按照所述目标抽取规则抽取所述知识内容中的字符段,得到所述第一组语义概念;
所述第二生成过程包括:从所述知识内容中抽取业务词;从所述参考语义概念中抽取关键词;将所述业务词和所述参考语义概念的关键词组合,得到所述第二组语义概念;其中,所述业务词是所述知识内容中属于预设业务类型的词;
所述第三生成过程包括:提取所述知识内容中的关键词作为所述第三组语义概念;
所述第四生成过程包括:提取所述知识内容中的关键句作为所述第四组语义概念;
提取所述第一组语义概念、所述第二组语义概念、所述第三组语义概念和所述第四组语义概念中相同的语义概念作为扩展语义概念。
6.一种面向知识内容的语义概念扩展生成装置,其特征在于,所述装置包括:
接收模块,用于接收知识内容;
确定模块,用于根据所述知识内容的特征信息确定所述知识内容的结构类型;
选择模块,用于从预存储的抽取规则中选择与所述知识内容的结构类型相匹配的目标抽取规则;
抽取模块,用于按照所述目标抽取规则抽取所述知识内容中的字符段,得到第一组语义概念。
7.如权利要求6所述的面向知识内容的语义概念扩展生成装置,其特征在于,所述装置还包括:判断模块、提取模块和组合模块,其中,
所述判断模块,用于判断所述知识内容所包含的字符的数量是否大于或者等于预设阈值;
所述提取模块,用于在所述知识内容所包含的字符的数量大于或者等于所述预设阈值时,提取所述知识内容中的关键词或者关键句作为第二组语义概念;
所述抽取模块,还用于在所述知识内容所包含的字符的数量小于所述预设阈值时,从所述知识内容中抽取业务词,并从预先接收的参考语义概念中抽取关键词;其中,所述业务词是所述知识内容中属于预设业务类型的词;
所述组合模块,用于提取所述第一组语义概念和所述第二组语义概念中相同的语义概念作为扩展语义概念。
8.如权利要求7所述的面向知识内容的语义概念扩展生成装置,其特征在于,
所述抽取模块,具体用于对所述知识内容执行分词操作,得到若干个基础词;根据所述待分类词的字符分别遍历预先创建的词库中的字符;当查找到所述待分类词时,为所述待分类词标注相应词库对应的类型标签,得到已分类词;从所述已分类词中确定标注有所述业务类型标签的词,得到所述业务词。
9.如权利要求7所述的面向知识内容的语义概念扩展生成装置,其特征在于,
所述组合模块,具体用于接收组合指令;按照所述组合指令中的顺序标识排列所述业务词和所述关键词的顺序。
10.一种面向知识内容的语义概念扩展生成装置,其特征在于,所述装置包括:
接收模块,用于接收知识内容和与所述知识内容相对应的参考语义概念;
执行模块,用于执行第一生成过程、第二生成过程、第三生成过程和第四生成过程,分别得到第一组语义概念、第二组语义概念、第三组语义概念和第四组语义概念;
其中,
所述第一生成过程包括:根据所述知识内容的字符类型确定所述知识内容的结构类型;从预存储的抽取规则中选择与所述知识内容的结构类型相匹配的目标抽取规则;按照所述目标抽取规则抽取所述知识内容中的字符段,得到所述第一组语义概念;
所述第二生成过程包括:从所述知识内容中抽取业务词;从所述参考语义概念中抽取关键词;将所述业务词和所述参考语义概念的关键词组合,得到所述第二组语义概念;其中,所述业务词是所述知识内容中属于预设业务类型的词;
所述第三生成过程包括:提取所述知识内容中的关键词作为所述第三组语义概念;
所述第四生成过程包括:提取所述知识内容中的关键句作为所述第四组语义概念;
提取模块,用于提取所述第一组语义概念、所述第二组语义概念、所述第三组语义概念和所述第四组语义概念中相同的语义概念作为扩展语义概念。
CN201710295522.2A 2017-04-28 2017-04-28 面向知识内容的语义概念扩展生成方法与装置 Active CN107256227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710295522.2A CN107256227B (zh) 2017-04-28 2017-04-28 面向知识内容的语义概念扩展生成方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710295522.2A CN107256227B (zh) 2017-04-28 2017-04-28 面向知识内容的语义概念扩展生成方法与装置

Publications (2)

Publication Number Publication Date
CN107256227A true CN107256227A (zh) 2017-10-17
CN107256227B CN107256227B (zh) 2018-12-21

Family

ID=60027594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710295522.2A Active CN107256227B (zh) 2017-04-28 2017-04-28 面向知识内容的语义概念扩展生成方法与装置

Country Status (1)

Country Link
CN (1) CN107256227B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977435A (zh) * 2017-12-04 2018-05-01 北京神州泰岳软件股份有限公司 一种文本信息的预处理方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005062202A2 (en) * 2003-12-23 2005-07-07 Thomas Eskebaek Knowledge management system with ontology based methods for knowledge extraction and knowledge search
CN1924995A (zh) * 2005-08-31 2007-03-07 中国科学院声学研究所 基于内容分析的短信问答系统及实现方法
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN104503998A (zh) * 2014-12-05 2015-04-08 百度在线网络技术(北京)有限公司 针对用户查询句的类型识别方法及装置
CN104834691A (zh) * 2015-04-22 2015-08-12 中国建设银行股份有限公司 一种语音机器人
CN105512349A (zh) * 2016-02-23 2016-04-20 首都师范大学 一种用于学习者自适应学习的问答方法及装置
CN105608218A (zh) * 2015-12-31 2016-05-25 上海智臻智能网络科技股份有限公司 智能问答知识库的建立方法、建立装置及建立系统
CN105677725A (zh) * 2015-12-30 2016-06-15 南京途牛科技有限公司 一种用于旅游垂直搜索引擎的前置解析方法
CN106095965A (zh) * 2016-06-17 2016-11-09 上海智臻智能网络科技股份有限公司 一种数据处理方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005062202A2 (en) * 2003-12-23 2005-07-07 Thomas Eskebaek Knowledge management system with ontology based methods for knowledge extraction and knowledge search
CN1924995A (zh) * 2005-08-31 2007-03-07 中国科学院声学研究所 基于内容分析的短信问答系统及实现方法
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN104503998A (zh) * 2014-12-05 2015-04-08 百度在线网络技术(北京)有限公司 针对用户查询句的类型识别方法及装置
CN104834691A (zh) * 2015-04-22 2015-08-12 中国建设银行股份有限公司 一种语音机器人
CN105677725A (zh) * 2015-12-30 2016-06-15 南京途牛科技有限公司 一种用于旅游垂直搜索引擎的前置解析方法
CN105608218A (zh) * 2015-12-31 2016-05-25 上海智臻智能网络科技股份有限公司 智能问答知识库的建立方法、建立装置及建立系统
CN105512349A (zh) * 2016-02-23 2016-04-20 首都师范大学 一种用于学习者自适应学习的问答方法及装置
CN106095965A (zh) * 2016-06-17 2016-11-09 上海智臻智能网络科技股份有限公司 一种数据处理方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977435A (zh) * 2017-12-04 2018-05-01 北京神州泰岳软件股份有限公司 一种文本信息的预处理方法及装置
CN107977435B (zh) * 2017-12-04 2020-05-22 中科鼎富(北京)科技发展有限公司 一种文本信息的预处理方法及装置

Also Published As

Publication number Publication date
CN107256227B (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN105893551B (zh) 数据的处理方法及装置、知识图谱
CN106778882B (zh) 一种基于前馈神经网络的智能合约自动分类方法
CN107958091A (zh) 一种基于金融垂直知识图谱的nlp人工智能方法及交互系统
CN106503148B (zh) 一种基于多知识库的表格实体链接方法
CN104156352A (zh) 一种中文事件的处理方法及系统
CN106815194A (zh) 模型训练方法及装置和关键词识别方法及装置
CN108804677A (zh) 结合多层级注意力机制的深度学习问题分类方法及系统
CN106897559A (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN104933152A (zh) 命名实体识别方法及装置
CN105912629A (zh) 一种智能问答方法及装置
CN108334493A (zh) 一种基于神经网络的题目知识点自动提取方法
CN108228556A (zh) 关键短语提取方法及装置
CN107506350A (zh) 一种识别信息的方法和设备
CN107292785A (zh) 一种出题方法及系统
CN107102993A (zh) 一种用户诉求分析方法和装置
CN106485328A (zh) 信息处理系统及方法
CN108876470A (zh) 标签用户扩展方法、计算机设备及存储介质
CN107748745A (zh) 一种企业名称关键字提取方法
CN106682236A (zh) 基于机器学习的专利数据处理方法及其处理系统
CN107239450A (zh) 基于交互上下文处理自然语言方法
CN109558591A (zh) 中文事件检测方法及装置
CN103377224B (zh) 识别问题类型的方法及装置、建立识别模型的方法及装置
CN106569996A (zh) 一种面向中文微博的情感倾向分析方法
CN104102694B (zh) 树形节点排序方法和树形节点排序装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171017

Assignee: Zhongke Dingfu (Beijing) Science and Technology Development Co., Ltd.

Assignor: Beijing Shenzhou Taiyue Software Co., Ltd.

Contract record no.: X2019990000215

Denomination of invention: Semantic concept expansion generation method and device for knowledge content

Granted publication date: 20181221

License type: Exclusive License

Record date: 20191127

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200629

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Patentee after: Dingfu Intelligent Technology Co., Ltd

Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building block A Room 601

Patentee before: BEIJING ULTRAPOWER SOFTWARE Co.,Ltd.