CN105320674B - 一种领域本体库的建立方法、装置及服务器 - Google Patents

一种领域本体库的建立方法、装置及服务器 Download PDF

Info

Publication number
CN105320674B
CN105320674B CN201410314893.7A CN201410314893A CN105320674B CN 105320674 B CN105320674 B CN 105320674B CN 201410314893 A CN201410314893 A CN 201410314893A CN 105320674 B CN105320674 B CN 105320674B
Authority
CN
China
Prior art keywords
domain ontology
input information
ontology library
extracted
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410314893.7A
Other languages
English (en)
Other versions
CN105320674A (zh
Inventor
王飞
徐浩
冯晓冰
韩贵平
廖玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410314893.7A priority Critical patent/CN105320674B/zh
Publication of CN105320674A publication Critical patent/CN105320674A/zh
Application granted granted Critical
Publication of CN105320674B publication Critical patent/CN105320674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于信息处理技术领域,提供了一种领域本体库的建立方法,包括:接收输入的信息;对输入的信息进行领域实体替换,生成替换后的输入信息;根据第一预设规则,从替换后的输入信息中提取领域本体库中未记录的数据;将提取出的未记录的数据存储至领域本体库。本发明能够有效且准确的发现新知识,并将新知识合并到领域本体库中,进行完善领域本体库数据的完整性及时效性。采用本发明构建领域本体库不需要人工参与,全部操作均以自动化的方式进行,其具智能化操作,节省了人力及时间。

Description

一种领域本体库的建立方法、装置及服务器
技术领域
本发明属于信息处理技术领域,尤其涉及一种领域本体库的建立方法、装置及服务器。
背景技术
目前流行的语音助手软件,其功能主要包括:接受用户的语音输入,分析用户的意图,提供相应的服务给用户,比如天气查询、列车查询、看视频、听音乐等。
语音助手软件中最核心的能力是对用户意图的分析,而对用户意图分析是依赖于领域本体库的完整性。这里所述的领域本体是指:给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成规定这些词汇外延的规则。然而,现实世界中的实体是时时刻刻都在变化的,以音乐领域为例,每天都会有大量新的歌曲产生,有大量新歌手出现,后台工作人员只有尽量获取到这些增加的新内容并完善到领域本体库中,才能为意图分析提供良好的基础支撑,才能更准确的解析用户意图,更好的为用户服务。
目前,领域本体库的构建和完善大都是靠人工编辑的方式,也有使用半自动化构建和完善的方式。但是,不论是人工编辑的方式,还是半自动化的方式,都需要人工的参与,其工作重复繁琐,需要每天都进行,消耗人力及时间,不具智能化操作。
发明内容
本发明的目的在于提供一种领域本体库的建立方法、装置及服务器,旨在解决现有技术中存在构建领域本体库需要人工参与,其工作重复繁琐,不具智能化操作,消耗人力及时间的问题。
本发明是这样实现的,一种领域本体库的建立方法,所述方法包括:
接收输入的信息;
对所述输入的信息进行领域实体替换,生成替换后的输入信息;
根据第一预设规则,从所述替换后的输入信息中提取领域本体库中未记录的数据;以及
将提取出的所述未记录的数据存储至所述领域本体库。
本发明的另一目的在于提供一种领域本体库的建立装置,所述装置包括:
信息接收模块,用于接收输入的信息;
替换模块,用于对所述输入的信息进行领域实体替换,生成替换后的输入信息;
数据提取模块,用于根据第一预设规则,从所述替换后的输入信息中提取领域本体库中未记录的数据;以及
存储模块,用于将提取出的所述未记录的数据存储至所述领域本体库。
本发明的另一目的在于提供一种包括上面所述的领域本体库的建立装置的服务器。
在本发明中,通过接收输入的信息;对所述输入的信息进行领域实体替换,生成替换后的输入信息;根据第一预设规则,从所述替换后的输入信息中提取领域本体库中未记录的数据;以及将提取出的所述未记录的数据存储至所述领域本体库。本发明能够有效且准确的发现新知识,并将新知识合并到领域本体库中,进行完善领域本体库数据的完整性及时效性,以供相关软件进行后续的操作。采用本发明实施例构建领域本体库不需要人工参与,全部操作均以自动化的方式进行,其具智能化操作,节省了人力及时间。
附图说明
图1是本发明实施例提供的领域本体库的建立装置所在的服务器的工作环境结构示意图;
图2是本发明实施例一提供的领域本体库的建立方法的实现流程示意图;
图3是本发明实施例二提供的领域本体库的建立方法的实现流程示意图;
图4是本发明实施例三提供的领域本体库的建立方法的实现流程示意图;
图5是本发明实施例四提供的领域本体库的建立方法的实现流程示意图;
图6是本发明实施例五提供的领域本体库的建立装置的结构示意图;
图7是本发明实施例六提供的领域本体库的建立装置的结构示意图;
图8是本发明实施例七提供的领域本体库的建立装置的结构示意图;
图9是本发明实施例八提供的领域本体库的建立装置的结构示意图。
图10是本发明实施例九提供的领域本体库的建立装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行之作业的步骤及符号来说明,除非另有述明。因此,其将可了解到这些步骤及操作,其中有数次提到为由计算机执行,包括了由代表了以一结构化型式中的数据之电子信号的计算机处理单元所操纵。此操纵转换该数据或将其维持在该计算机之内存系统中的位置处,其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机之运作。该数据所维持的数据结构为该内存之实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
如本申请所使用的术语“组件”、“模块”、“系统”、“接口”、“进程”等等一般地旨在指计算机相关实体:硬件、硬件和软件的组合、软件或执行中的软件。例如,组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和/或计算机。通过图示,运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和/或线程内,并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。
而且,要求保护的主题可以被实现为使用标准编程和/或工程技术产生软件、固件、硬件或其任意组合以控制计算机实现所公开的主题的方法、装置或制造品。本文所使用的术语“制造品”旨在包含可从任意计算机可读设备、载体或介质访问的计算机程序。当然,本领域技术人员将认识到可以对该配置进行许多修改,而不脱离要求保护的主题的范围或精神。
图1和随后的讨论提供了对实现本发明所述的领域本体库的建立装置所在的服务器的工作环境的简短、概括的描述。图1的工作环境仅仅是适当的工作环境的一个实例并且不旨在建议关于工作环境的用途或功能的范围的任何限制。实例服务器112包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型服务器、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境,等等。
尽管没有要求,但是在“计算机可读指令”被一个或多个服务器执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布(下文讨论)。计算机可读指令可以实现为程序模块,比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口(API)、数据结构等等。典型地,该计算机可读指令的功能可以在各种环境中随意组合或分布。
图1图示了包括本发明的领域本体库的建立装置的一个或多个实施例的服务器112的实例。在一种配置中,服务器112包括至少一个处理单元116和存储器118。根据服务器的确切配置和类型,存储器118可以是易失性的(比如RAM)、非易失性的(比如ROM、闪存等)或二者的某种组合。该配置在图1中由虚线114图示。
在其他实施例中,服务器112可以包括附加特征和/或功能。例如,设备112还可以包括附加的存储装置(例如可移除和/或不可移除的),其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图1中由存储装置120图示。在一个实施例中,用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置120中。存储装置120还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器118中由例如处理单元116执行。
本文所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器118和存储装置120是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被服务器112访问的任何其他介质。任意这样的计算机存储介质可以是服务器112的一部分。
服务器112还可以包括允许服务器112与其他设备通信的通信连接126。通信连接126可以包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射器/接收器、红外端口、USB连接或用于将服务器112连接到其他服务器的其他接口。通信连接126可以包括有线连接或无线连接。通信连接126可以发射和/或接收通信媒体。
术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“己调制数据信号”中的其他数据,并且包括任何信息递送介质。术语“己调制数据信号”可以包括这样的信号:该信号特性中的一个或多个按照将信息编码到信号中的方式来设置或改变。
服务器112可以包括输入设备124,比如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和/或任何其他输入设备。设备112中也可以包括输出设备122,比如一个或多个显示器、扬声器、打印机和/或任意其他输出设备。输入设备124和输出设备122可以经由有线连接、无线连接或其任意组合连接到服务器112。在一个实施例中,来自另一个服务器的输入设备或输出设备可以被用作服务器112的输入设备124或输出设备122。
服务器112的组件可以通过各种互连(比如总线)连接。这样的互连可以包括外围组件互连(PCI)(比如快速PCI)、通用串行总线(USB)、火线(IEEE1394)、光学总线结构等等。在另一个实施例中,服务器112的组件可以通过网络互连。例如,存储器118可以由位于不同物理位置中的、通过网络互连的多个物理存储器单元构成。
本领域技术人员将认识到,用于存储计算机可读指令的存储设备可以跨越网络分布。例如,可经由网络128访问的计算设备130可以存储用于实现本发明所提供的一个或多个实施例的计算机可读指令。服务器112可以访问计算设备130并且下载计算机可读指令的一部分或所有以供执行。可替代地,服务器112可以按需要下载多条计算机可读指令,或者一些指令可以在服务器112处执行并且一些指令可以在计算设备130处执行。
本文提供了实施例的各种操作。在一个实施例中,所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令,其在被服务器执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且,应当理解,不是所有操作必需在本文所提供的每个实施例中存在。
而且,本文所使用的词语“优选的”意指用作实例、示例或例证。奉文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或多个实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
在本发明实施例中,本发明可以实时的从用户的输入中提取相关领域本体中的未收录的实体名和关系,并将其完善到领域本体库中。从而解决了现有技术中存在的构建领域本体库需要人工参与,其工作重复繁琐,不具智能化操作,消耗人力及时间的问题。
请参阅图2,为本发明实施例一提供的领域本体库的建立方法的实现流程示意图。
在步骤S101中,接收输入的信息。
在本发明实施例中,接收输入的信息主要包括:接收来自用户输入的语音信息或者文字信息等。
在步骤S102中,对所述输入的信息进行领域实体替换,生成替换后的输入信息。
在本发明实施例中,所述对所述输入的信息进行领域实体替换,生成替换后的输入信息的步骤,包括:
在所述领域本体库中查找匹配所述输入的信息的领域实体;
用查找到的领域实体替换所述输入的信息中匹配所述领域实体的信息,生成替换后的输入信息。
在步骤S103中,根据第一预设规则,从所述替换后的输入信息中提取领域本体库中未记录的数据。
在本发明实施例中,以音乐领域本体库为例,第一预设规则主要包括但不限于以下形式:
(播放|我想听|我要听)【已收录歌手名】的%s1(这首歌|这个歌)
(播放|我想听|我要听)【已收录歌手名】的%s1
(播放|我想听|我要听)%s1(这首歌|这个歌)
(播放|我想听|我要听)%s1
其中小括号“()”括起来的用竖线分隔的是同时支持的说法;%s1是位置参数,一般支持9个位置参数%s1~%s9,其位置参数对应的源串提取出来的数据很有可能就是歌名;中文大括号“【】”括起来的部分是当前领域本体库中已收录的其他类型实体,比如这里的【已收录歌手名】就是音乐领域本体库中已收录的歌手实体。
又如,以视频领域本体库为例,第一预设规则主要包括但不限于以下形式:
(播放|我想看|我要看)【已收录演员名】的%s1(这部电视剧|这部电影)
(播放|我想看|我要看)【已收录演员名】的%s1
(播放|我想看|我要看)%s1(这部电视剧|这部电影)
(播放|我想看|我要看)%s1
然而,可以理解的是,所述第一预设规则可根据领域不同以及常用的说法来自行定义规则。
在步骤S104中,将提取出的所述未记录的数据存储至所述领域本体库。
请参阅图3,为本发明实施例二提供的领域本体库的建立方法的实现流程示意图。
在步骤S201中,接收输入的信息。
在本发明实施例中,接收输入的信息主要包括:接收来自用户输入的语音信息或者文字信息等。
在步骤S202中,对所述输入的信息进行领域实体替换,生成替换后的输入信息。
在步骤S203中,根据所述替换后的输入信息,选择与所述替换后的输入信息匹配的第二预设规则;
在步骤S204中,根据第二预设规则,选择与所述第二预设规则匹配的所述第一预设规则。
在本发明实施例中,以音乐领域本体库为例,第一预设规则主要包括但不限于以下形式:
(播放|我想听|我要听)【已收录歌手名】的%s1(这首歌|这个歌)
(播放|我想听|我要听)【已收录歌手名】的%s1
(播放|我想听|我要听)%s1(这首歌|这个歌)
(播放|我想听|我要听)%s1
其中小括号“()”括起来的用竖线分隔的是同时支持的说法;%s1是位置参数,一般支持9个位置参数%s1~%s9,其位置参数对应的源串提取出来的数据很有可能就是歌名;中文大括号“【】”括起来的部分是当前领域本体库中已收录的其他类型实体,比如这里的【已收录歌手名】就是音乐领域本体库中已收录的歌手实体。
又如,以视频领域本体库为例,第一预设规则主要包括但不限于以下形式:
(播放|我想看|我要看)【已收录演员名】的%s1(这部电视剧|这部电影)
(播放|我想看|我要看)【已收录演员名】的%s1
(播放|我想看|我要看)%s1(这部电视剧|这部电影)
(播放|我想看|我要看)%s1
然而,可以理解的是,所述第一预设规则可根据领域不同以及常用的说法来自行定义规则。
在本发明实施例中,以音乐领域本体库为例,第二预设规则主要包括但不限于以下形式:
(播放|我想听|我要听)【已收录歌手名】的.+(这首歌|这个歌)
(播放|我想听|我要听)【已收录歌手名】的.+
(播放|我想听|我要听).+(这首歌|这个歌)
(播放|我想听|我要听).+
这里的.+为一个或多个字符的通配符,这里是将第一预设规则中的所有%sn转为第二预设规则里面匹配一个或多个字符的通配符“.+”。
又如,以视频领域本体库为例,第二预设规则主要包括但不限于以下形式:
(播放|我想看|我要看)【已收录演员名】的.+(这部电视剧|这部电影)
(播放|我想看|我要看)【已收录演员名】的.+
(播放|我想看|我要看).+(这部电视剧|这部电影)
(播放|我想看|我要看).+
然而,可以理解的是,所述第二预设规则可根据领域不同以及常用的说法来自行定义规则。
在步骤S205中,根据第一预设规则,从所述替换后的输入信息中提取领域本体库中未记录的数据。
在步骤S206中,将提取出的所述未记录的数据存储至所述领域本体库。
请参阅图4,为本发明实施例三提供的领域本体库的建立方法的实现流程示意图。
在步骤S301中,接收输入的信息。
在步骤S302中,对所述输入的信息进行领域实体替换,生成替换后的输入信息。
作为本发明一优选实施例,在步骤S302之后,还包括:
根据所述替换后的输入信息,选择与所述替换后的输入信息匹配的第二预设规则;
根据第二预设规则,选择与所述第二预设规则匹配的所述第一预设规则。
在步骤S303中,根据第一预设规则,从所述替换后的输入信息中提取领域本体库中未记录的数据。
在步骤S304中,对所述提取出的未记录的数据进行验证;
作为本发明一实施例,步骤S304包括:
将所述提取出的未记录的数据发送至预设服务器中进行搜索;
接收预设服务器返回的搜索结果;
判断所述搜索结果中是否包括有所述提取出的未记录的数据;以及
若搜索结果中包括所述提取出的未记录的数据,则将提取出的未记录的数据存储至所述领域本体库。
在步骤S305中,如果验证成功,则将提取出的未记录的数据存储至所述领域本体库。
请参阅图5,为本发明实施例四提供的领域本体库的建立方法的实现流程示意图。
在步骤S401中,接收输入的信息。
在步骤S402中,对所述输入的信息进行领域实体替换,生成替换后的输入信息。
作为本发明一优选实施例,在步骤S402之后,还包括:
根据所述替换后的输入信息,选择与所述替换后的输入信息匹配的第二预设规则;
根据第二预设规则,选择与所述第二预设规则匹配的所述第一预设规则。
在步骤S403中,根据第一预设规则,从所述替换后的输入信息中提取领域本体库中未记录的数据。
作为本发明一优选实施例,在步骤S403之后,还包括:
将所述提取出的未记录的数据发送至预设服务器中进行搜索;
接收预设服务器返回的搜索结果;
判断所述搜索结果中是否包括有所述提取出的未记录的数据;以及
若搜索结果中包括所述提取出的未记录的数据,则执行步骤S404。
在步骤S404中,建立所述未记录的数据与所述领域本体库中的领域实体对应的关联。
在步骤S405中,根据建立的关联,将提取出的未记录的数据存储至所述领域本体库。
请参阅图6,为本发明实施例五提供的领域本体库的建立方法的实现流程示意图。
在步骤S501中,接收输入的信息。
在步骤S502中,对所述输入的信息进行领域实体替换,生成替换后的输入信息。
作为本发明一优选实施例,在步骤S502之后,还包括:
根据所述替换后的输入信息,选择与所述替换后的输入信息匹配的第二预设规则;
根据第二预设规则,选择与所述第二预设规则匹配的所述第一预设规则。
在步骤S503中,根据第二预设规则提取第一预设规则的位置参数;
在步骤S504中,依次匹配所述第一预设规则与所述替换后的输入信息重合的部分;
在步骤S505中,确定重合部分之外的数据则为所述位置参数对应的数据;以及
在步骤S506中,提取所述位置参数对应的数据作为未记录的数据。
在步骤S507中,将提取出的所述未记录的数据存储至所述领域本体库。
作为本发明一优选实施例,在步骤S506之后,还包括:
将所述提取出的未记录的数据发送至预设服务器中进行搜索;
接收预设服务器返回的搜索结果;
判断所述搜索结果中是否包括有所述提取出的未记录的数据;以及
若搜索结果中包括所述提取出的未记录的数据,则建立所述未记录的数据与所述领域本体库中的领域实体对应的关联。
根据建立的关联,将提取出的未记录的数据存储至所述领域本体库。
下面详细描述采用本发明实施例提供的领域本体库的建立方法,来实现基于语音助手软件中自动发现音乐领域本体的新歌名的具体处理流程。
作为语音助手软件,它有一个先天优势,可以获取到用户的大量原始输入,而这些输入包含了大量的知识,其中大部分的知识是已经蕴含在领域本体库中的,还有一部分新知识还没有被收录到领域本体库中,根据用户在特定领域的常用说法和句式,结合现有的知识,便可以分析出用户的输入中可能存在的新知识,在对新知识进行验证后,便可以将验证后的新知识合并到领域本体库中。以上操作是一个自动完成的过程。
以音乐场景为例,这个领域的实体主要包括歌名、专辑名、歌手名以及这三者之间的两两关系。为了方便描述,这里只考虑歌名和歌手名以及两者的关系。
当用户以一个常用句式说出音乐相关的请求,也许用户的输入包含一个没有被语音助手软件收录的新歌名,也可能包含一个没有被语音助手软件收录的歌手名,使用本发明便可以发现这个新知识。
假设用户输入:我想听张韶涵的有形的翅膀,因为“张韶涵”是语音助手软件已收录的歌手实体,而“有形的翅膀”没有被收录,具体实现流程如下:
首先,对用户的输入信息进行领域实体替换,这里发现“张韶涵”是个歌手名,替换后的用户输入为:我想听【已收录歌手名】的有形的翅膀。
接着,对替换领域实体后的输入(即我想听【已收录歌手名】的有形的翅膀)依次和第二预设规则进行匹配,最后匹配到表达式(播放|我想听|我要听)【已收录歌手名】的.+,该匹配到的表达式对应的第一预设规则是:
(播放|我想听|我要听)【已收录歌手名】的%s1
其次,根据第二预设规则提取%s1对应的位置参数,依次匹配第一预设规则和替换领域实体后的输入所重合的部分,最后得出位置参数为“有形的翅膀”,提取“有形的翅膀”。
然后,对提取到的歌名进行自动验证。音乐的验证方式是在音乐网站以该疑似歌名为关键字进行搜索,对返回的结果列表进行考察,如果返回的列表中有某个歌名和提取到的疑似歌名完全一致,则可以认为它确实是一个未收录的新歌。该例中,我们还要验证歌手名,如果列表中某项歌名和疑似跟名完全一致,并且歌唱者和句中提取的【已收录歌手名】也一致(本例中提取到的歌手名是张韶涵),那么歌手名的验证也通过。
最后,将发现的新知识合并到已有领域本体中。该例中学到了两个知识:1、“有形的翅膀”属于音乐领域本体的歌曲名的一个实体;2、歌曲“有形的翅膀”演唱者是张韶涵。
请参阅图6,为本发明实施例五提供的领域本体库的建立装置的结构示意图。为了便于说明,仅示出了与本发明实施例相关的部分。所述领域本体库的建立装置包括:信息接收模块101、替换模块102、数据提取模块103、以及存储模块104。所述领域本体库的建立装置可以是内置于服务器中的软件单元、硬件单元或者是软硬结合的单元。
信息接收模块101,用于接收输入的信息;
在本发明实施例中,接收输入的信息主要包括:接收来自用户输入的语音信息或者文字信息等。
替换模块102,用于对所述输入的信息进行领域实体替换,生成替换后的输入信息;
数据提取模块103,用于根据第一预设规则,从所述替换后的输入信息中提取领域本体库中未记录的数据;
在本发明实施例中,以音乐领域本体库为例,第一预设规则主要包括但不限于以下形式:
(播放|我想听|我要听)【已收录歌手名】的%s1(这首歌|这个歌)
(播放|我想听|我要听)【已收录歌手名】的%s1
(播放|我想听|我要听)%s1(这首歌|这个歌)
(播放|我想听|我要听)%s1
其中小括号“()”括起来的用竖线分隔的是同时支持的说法;%s1是位置参数,一般支持9个位置参数%s1~%s9,其位置参数对应的源串提取出来的数据很有可能就是歌名;中文大括号“【】”括起来的部分是当前领域本体库中已收录的其他类型实体,比如这里的【已收录歌手名】就是音乐领域本体库中已收录的歌手实体。
又如,以视频领域本体库为例,第一预设规则主要包括但不限于以下形式:
(播放|我想看|我要看)【已收录演员名】的%s1(这部电视剧|这部电影)
(播放|我想看|我要看)【已收录演员名】的%s1
(播放|我想看|我要看)%s1(这部电视剧|这部电影)
(播放|我想看|我要看)%s1
然而,可以理解的是,所述第一预设规则可根据领域不同以及常用的说法来自行定义规则。
存储模块104,用于将提取出的所述未记录的数据存储至所述领域本体库。
请参阅图7,为本发明实施例六提供的领域本体库的建立装置的结构示意图。为了便于说明,仅示出了与本发明实施例相关的部分。所述领域本体库的建立装置包括:信息接收模块201、替换模块202、第一选择模块2031、第二选择模块2032、数据提取模块204、以及存储模块205。所述领域本体库的建立装置可以是内置于服务器中的软件单元、硬件单元或者是软硬结合的单元。
信息接收模块201,用于接收输入的信息;
替换模块202,用于对所述输入的信息进行领域实体替换,生成替换后的输入信息;
第一选择模块2031,用于根据所述替换后的输入信息,选择与所述替换后的输入信息匹配的第二预设规则;
第二选择模块2032,用于根据第二预设规则,选择与所述第二预设规则匹配的所述第一预设规则。
在本发明实施例中,以音乐领域本体库为例,第二预设规则主要包括但不限于以下形式:
(播放|我想听|我要听)【已收录歌手名】的.+(这首歌|这个歌)
(播放|我想听|我要听)【已收录歌手名】的.+
(播放|我想听|我要听).+(这首歌|这个歌)
(播放|我想听|我要听).+
这里的.+为一个或多个字符的通配符,这里是将第一预设规则中的所有%sn转为第二预设规则里面匹配一个或多个字符的通配符“.+”。
又如,以视频领域本体库为例,第二预设规则主要包括但不限于以下形式:
(播放|我想看|我要看)【已收录演员名】的.+(这部电视剧|这部电影)
(播放|我想看|我要看)【已收录演员名】的.+
(播放|我想看|我要看).+(这部电视剧|这部电影)
(播放|我想看|我要看).+
然而,可以理解的是,所述第二预设规则可根据领域不同以及常用的说法来自行定义规则。
数据提取模块204,用于根据第一预设规则,从所述替换后的输入信息中提取领域本体库中未记录的数据;
在本发明实施例中,以音乐领域本体库为例,第一预设规则主要包括但不限于以下形式:
(播放|我想听|我要听)【已收录歌手名】的%s1(这首歌|这个歌)
(播放|我想听|我要听)【已收录歌手名】的%s1
(播放|我想听|我要听)%s1(这首歌|这个歌)
(播放|我想听|我要听)%s1
其中小括号“()”括起来的用竖线分隔的是同时支持的说法;%s1是位置参数,一般支持9个位置参数%s1~%s9,其位置参数对应的源串提取出来的数据很有可能就是歌名;中文大括号“【】”括起来的部分是当前领域本体库中已收录的其他类型实体,比如这里的【已收录歌手名】就是音乐领域本体库中已收录的歌手实体。
又如,以视频领域本体库为例,第一预设规则主要包括但不限于以下形式:
(播放|我想看|我要看)【已收录演员名】的%s1(这部电视剧|这部电影)
(播放|我想看|我要看)【已收录演员名】的%s1
(播放|我想看|我要看)%s1(这部电视剧|这部电影)
(播放|我想看|我要看)%s1
然而,可以理解的是,所述第一预设规则可根据领域不同以及常用的说法来自行定义规则。
存储模块205,用于将提取出的所述未记录的数据存储至所述领域本体库。
请参阅图8,为本发明实施例七提供的领域本体库的建立装置的结构示意图。为了便于说明,仅示出了与本发明实施例相关的部分。所述领域本体库的建立装置包括:信息接收模块301、替换模块302、数据提取模块303、验证模块304、以及存储模块305。所述领域本体库的建立装置可以是内置于服务器中的软件单元、硬件单元或者是软硬结合的单元。
信息接收模块301,用于接收输入的信息;
替换模块302,用于对所述输入的信息进行领域实体替换,生成替换后的输入信息;
数据提取模块303,用于根据第一预设规则,从所述替换后的输入信息中提取领域本体库中未记录的数据;
验证模块304,用于对所述提取出的未记录的数据进行验证;
存储模块305,用于当验证成功时,将提取出的未记录的数据存储至所述领域本体库。
在本发明实施例中,所述验证模块包括:
发送模块,用于将所述提取出的未记录的数据发送至预设服务器中进行搜索;
接收模块,用于接收预设服务器返回的搜索结果;
判断模块,用于判断所述搜索结果中是否包括有所述提取出的未记录的数据;以及
所述存储模块305,还用于当搜索结果中包括所述提取出的未记录的数据时,将提取出的未记录的数据存储至所述领域本体库。
请参阅图9,为本发明实施例八提供的领域本体库的建立装置的结构示意图。为了便于说明,仅示出了与本发明实施例相关的部分。所述领域本体库的建立装置包括:信息接收模块401、替换模块402、数据提取模块403、关联建立模块404、以及存储模块405。所述领域本体库的建立装置可以是内置于服务器中的软件单元、硬件单元或者是软硬结合的单元。
信息接收模块401,用于接收输入的信息;
替换模块402,用于对所述输入的信息进行领域实体替换,生成替换后的输入信息;
数据提取模块403,用于根据第一预设规则,从所述替换后的输入信息中提取领域本体库中未记录的数据;
关联建立模块404,用于建立所述未记录的数据与所述领域本体库中的领域实体对应的关联;以及
存储模块405,用于根据建立的关联,将提取出的未记录的数据存储至所述领域本体库。
请参阅图10,为本发明实施例九提供的领域本体库的建立装置的结构示意图。为了便于说明,仅示出了与本发明实施例相关的部分。所述领域本体库的建立装置包括:信息接收模块501、替换模块502、第一选择模块5031、第二选择模块5032、位置参数提取模块504、匹配模块505、确定模块506、数据提取模块507、验证模块508、关联建立模块509、以及存储模块510。所述领域本体库的建立装置可以是内置于服务器中的软件单元、硬件单元或者是软硬结合的单元。
信息接收模块501,用于接收输入的信息;
替换模块502,用于对所述输入的信息进行领域实体替换,生成替换后的输入信息;
第一选择模块5031,用于用于根据所述替换后的输入信息,选择与所述替换后的输入信息匹配的第二预设规则;
第二选择模块5032,用于根据第二预设规则,选择与所述第二预设规则匹配的所述第一预设规则。
位置参数提取模块504,用于根据所述第二预设规则提取所述第一预设规则的位置参数;
匹配模块505,用于依次匹配所述第一预设规则与所述替换后的输入信息重合的部分;
确定模块506,用于确定重合部分之外的数据则为所述位置参数对应的数据;以及
所述数据提取模块507,还用于提取所述位置参数对应的数据作为未记录的数据。
验证模块508,用于对所述提取出的未记录的数据进行验证;
关联建立模块509,用于建立所述未记录的数据与所述领域本体库中的领域实体对应的关联;
存储模块510,用于根据建立的关联,将提取出的未记录的数据存储至所述领域本体库。
综上所述,本发明实施例通过接收输入的信息;对所述输入的信息进行领域实体替换,生成替换后的输入信息;根据第一预设规则,从所述替换后的输入信息中提取领域本体库中未记录的数据;以及将提取出的所述未记录的数据存储至所述领域本体库。本发明能够有效且准确的发现新知识,并将新知识合并到领域本体库中,进行完善领域本体库数据的完整性及时效性,以供相关软件进行后续的操作。采用本发明实施例构建领域本体库不需要人工参与,全部操作均以自动化的方式进行,其具智能化操作,节省了人力及时间。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种领域本体库的建立方法,其特征在于,所述方法包括:
接收输入的信息;
在所述领域本体库中查找匹配所述输入的信息的领域实体;
用查找到的领域实体替换所述输入的信息中匹配所述领域实体的信息,生成替换后的输入信息;
根据所述替换后的输入信息,选择与所述替换后的输入信息匹配的第二预设规则;
根据第二预设规则,选择与所述第二预设规则匹配的第一预设规则;
根据所述第二预设规则提取所述第一预设规则的位置参数;
依次匹配所述第一预设规则与所述替换后的输入信息重合的部分;
确定重合部分之外的数据则为所述位置参数对应的数据;以及
提取所述位置参数对应的数据作为未记录的数据;
将提取出的所述未记录的数据存储至所述领域本体库。
2.如权利要求1所述的领域本体库的建立方法,其特征在于,在所述根据第一预设规则,从替换后的输入信息中提取领域本体库中未记录的数据的步骤之后,还包括:
对所述提取出的未记录的数据进行验证;以及
如果验证成功,则将提取出的未记录的数据存储至所述领域本体库。
3.如权利要求2所述的领域本体库的建立方法,其特征在于,对所述提取出的未记录的数据进行验证的步骤,包括:
将所述提取出的未记录的数据发送至预设服务器中进行搜索;
接收预设服务器返回的搜索结果;
判断所述搜索结果中是否包括有所述提取出的未记录的数据;以及
若搜索结果中包括所述提取出的未记录的数据,则将提取出的未记录的数据存储至所述领域本体库。
4.如权利要求1所述的领域本体库的建立方法,其特征在于,所述根据第一预设规则,从替换后的输入信息中提取领域本体库中未记录的数据的步骤之后,还包括:
建立所述未记录的数据与所述领域本体库中的领域实体对应的关联;
所述将提取出的未记录的数据存储至所述领域本体库的步骤,包括:根据建立的关联,将提取出的未记录的数据存储至所述领域本体库。
5.一种领域本体库的建立装置,其特征在于,所述装置包括:
信息接收模块,用于接收输入的信息;
替换模块,用于在所述领域本体库中查找匹配所述输入的信息的领域实体,以及用查找到的领域实体替换所述输入的信息中匹配所述领域实体的信息,生成替换后的输入信息;
数据提取模块,用于根据所述替换后的输入信息,选择与所述替换后的输入信息匹配的第二预设规则,并根据第二预设规则,选择与所述第二预设规则匹配的第一预设规则,并根据所述第二预设规则提取所述第一预设规则的位置参数,并依次匹配所述第一预设规则与所述替换后的输入信息重合的部分,并确定重合部分之外的数据则为所述位置参数对应的数据;以及提取所述位置参数对应的数据作为未记录的数据;
存储模块,用于将提取出的所述未记录的数据存储至所述领域本体库。
6.如权利要求5所述的领域本体库的建立装置,其特征在于,所述装置还包括:
验证模块,用于对所述提取出的未记录的数据进行验证;以及
所述存储模块,还用于当验证成功时,将提取出的未记录的数据存储至所述领域本体库。
7.如权利要求6所述的领域本体库的建立装置,其特征在于,所述验证模块包括:
发送模块,用于将所述提取出的未记录的数据发送至预设服务器中进行搜索;
接收模块,用于接收预设服务器返回的搜索结果;
判断模块,用于判断所述搜索结果中是否包括有所述提取出的未记录的数据;以及
所述存储模块,还用于当搜索结果中包括所述提取出的未记录的数据时,将提取出的未记录的数据存储至所述领域本体库。
8.如权利要求5所述的领域本体库的建立装置,其特征在于,所述装置还包括:
关联建立模块,用于建立所述未记录的数据与所述领域本体库中的领域实体对应的关联;以及
所述存储模块,还用于根据建立的关联,将提取出的未记录的数据存储至所述领域本体库。
9.一种包括权利要求5至8任一项所述的领域本体库的建立装置的服务器。
10.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至4任一项所述的领域本体库的建立方法。
CN201410314893.7A 2014-07-03 2014-07-03 一种领域本体库的建立方法、装置及服务器 Active CN105320674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410314893.7A CN105320674B (zh) 2014-07-03 2014-07-03 一种领域本体库的建立方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410314893.7A CN105320674B (zh) 2014-07-03 2014-07-03 一种领域本体库的建立方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN105320674A CN105320674A (zh) 2016-02-10
CN105320674B true CN105320674B (zh) 2020-05-12

Family

ID=55248076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410314893.7A Active CN105320674B (zh) 2014-07-03 2014-07-03 一种领域本体库的建立方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN105320674B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368084A (zh) * 2020-03-05 2020-07-03 百度在线网络技术(北京)有限公司 实体数据处理方法、装置、服务器、电子设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005087069A (ja) * 2003-09-16 2005-04-07 Dainippon Printing Co Ltd 生物情報のロスレス符号化装置、検索装置、および三次元情報のロスレス符号化装置
CN101901247A (zh) * 2010-03-29 2010-12-01 北京师范大学 一种领域本体约束的垂直搜索引擎方法及系统
CN102012936A (zh) * 2010-12-07 2011-04-13 中国电信股份有限公司 基于云计算平台的海量数据聚合方法和系统
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎
CN102693320A (zh) * 2012-06-01 2012-09-26 中国科学技术大学 一种搜索方法及装置
CN103631948A (zh) * 2013-12-11 2014-03-12 北京京东尚科信息技术有限公司 命名实体的识别方法
CN103886099A (zh) * 2014-04-09 2014-06-25 中国人民大学 一种模糊概念的语义检索系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005087069A (ja) * 2003-09-16 2005-04-07 Dainippon Printing Co Ltd 生物情報のロスレス符号化装置、検索装置、および三次元情報のロスレス符号化装置
CN101901247A (zh) * 2010-03-29 2010-12-01 北京师范大学 一种领域本体约束的垂直搜索引擎方法及系统
CN102012936A (zh) * 2010-12-07 2011-04-13 中国电信股份有限公司 基于云计算平台的海量数据聚合方法和系统
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎
CN102693320A (zh) * 2012-06-01 2012-09-26 中国科学技术大学 一种搜索方法及装置
CN103631948A (zh) * 2013-12-11 2014-03-12 北京京东尚科信息技术有限公司 命名实体的识别方法
CN103886099A (zh) * 2014-04-09 2014-06-25 中国人民大学 一种模糊概念的语义检索系统及方法

Also Published As

Publication number Publication date
CN105320674A (zh) 2016-02-10

Similar Documents

Publication Publication Date Title
CN107210033B (zh) 基于众包来更新用于数字个人助理的语言理解分类器模型
CN111566638B (zh) 向应用编程接口添加描述性元数据以供智能代理使用
CN110659366A (zh) 语义解析方法、装置、电子设备以及存储介质
CN104967647A (zh) 消息推送方法和装置
CN101996195A (zh) 音频文件中语音信息的搜索方法、装置及设备
US20200218760A1 (en) Music search method and device, server and computer-readable storage medium
CN107341014A (zh) 电子设备、技术文档的生成方法及装置
CN104156454A (zh) 搜索词的纠错方法和装置
WO2017016126A1 (zh) 语音识别语法树的构图方法、装置、终端设备及存储介质
CN111414743A (zh) 一种文档模板的调用方法、装置、电子设备及存储介质
CN103841464A (zh) 一种视频信息推送方法及装置
CN110489087A (zh) 一种生成分形结构的方法、装置、介质和电子设备
CN109299352B (zh) 搜索引擎中网站数据的更新方法、装置和搜索引擎
CN110781658A (zh) 简历解析方法、装置、电子设备和存储介质
CN110489106A (zh) 一种项目初始化代码的生成方法、装置、介质和电子设备
CN110609991B (zh) 文本生成方法、电子装置及存储介质
WO2013079773A1 (en) Methods and apparatuses for generating semantic signatures for media content
CN111274819A (zh) 资源获取方法及装置
CN103838464A (zh) 盲人手机读屏图形控件自动适配方法
CN105320674B (zh) 一种领域本体库的建立方法、装置及服务器
CN102737082A (zh) 一种动态更新文稿数据索引的方法和系统
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
CN105824857A (zh) 一种语音搜索方法、装置及终端
CN109597873A (zh) 语料数据的处理方法、装置、计算机可读介质及电子设备
CN111984600B (zh) 一种文件聚合方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant