CN111859976A - 一种基于知识图谱扩充正则表达式的方法和装置 - Google Patents

一种基于知识图谱扩充正则表达式的方法和装置 Download PDF

Info

Publication number
CN111859976A
CN111859976A CN201910365367.6A CN201910365367A CN111859976A CN 111859976 A CN111859976 A CN 111859976A CN 201910365367 A CN201910365367 A CN 201910365367A CN 111859976 A CN111859976 A CN 111859976A
Authority
CN
China
Prior art keywords
sentence
relationship
knowledge graph
regular expression
adjacent nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910365367.6A
Other languages
English (en)
Inventor
张平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201910365367.6A priority Critical patent/CN111859976A/zh
Publication of CN111859976A publication Critical patent/CN111859976A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于知识图谱扩充正则表达式的方法和装置,包括:构建领域知识图谱;根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式;获取所述节点对应的语义槽;根据所述句式、所述语义槽、和所述句式中非节点部分生成正则表达式,并更新正则表达式库。本发明基于领域知识图谱中每个三元组自动生成正则表达式,无需人工编写正则表达式,省时省力,而且使构建的正则表达式库更完善,提高语义解析的成功率,进而提高智能学习产品的用户使用体验。

Description

一种基于知识图谱扩充正则表达式的方法和装置
技术领域
本发明涉及语义解析领域,尤指一种基于知识图谱扩充正则表达式的方法和装置。
背景技术
随着社会的不断发展,越来越多的智能学习设备,比如家教机、学生平板等,在家庭中得到广泛应用。人们使用这类设备来辅助孩子学习,如在学习的过程中,碰到不会解的习题、不理解的知识点时,通过语音或文本输入相关问题或知识点,在智能学习设备中搜索对应的答案和知识讲解。
目前,在人机交互场景中,准确理解输入信息的语义是做出正确应答的基础。依靠正则表达式对语义进行解析是语义解析中的一种经典方法。该方法通过扩充正则表达式库来提升语义解析能力。一般,需要人工扩充用户语料,根据扩充的语料扩充正则表达式库,费时费力且低效;另外,可能还存在有些句式的语料未被收集到,使得构建的正则表达式库不完全,导致用户在使用时一些语料无法被正常解析,进而导致机器无法准确地理解用户的意图,降低用户的使用体验。
发明内容
本发明的目的是提供一种基于知识图谱扩充正则表达式的方法和装置,该方法基于知识图谱生成新的正则表达式,扩充已有的正则表达式库,使构建的正则表达式库更完善,以便准确地理解用户的意图,提高语义解析的成功率。
本发明提供的技术方案如下:
一种基于知识图谱扩充正则表达式的方法,包括:构建领域知识图谱;根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式;获取所述节点对应的语义槽;根据所述句式、所述语义槽、和所述句式中非节点部分生成正则表达式,并更新正则表达式库。
进一步优选的,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式包括:当所述领域知识图谱中两个相邻的节点之间存在双向关系时,根据所述双向关系,分别得到不同的句式。
进一步优选的,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词。
进一步优选的,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
进一步优选的,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:当所述领域知识图谱中两个相邻的节点间的关系为动词时,根据所述两个节点及所述关系得到第二句式,所述第二句式的谓语为所述关系。
进一步优选的,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:当所述领域知识图谱中两个相邻的节点间的关系为动词时,将所述关系用语义相近的名词表达,得到与所述第二句式语义相同的不同句式。
本发明还提供一种基于知识图谱扩充正则表达式的装置,包括:知识图谱构建模块,用于构建领域知识图谱;句式生成模块,用于根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式;语义槽获取模块,用于获取所述节点对应的语义槽;正则生成模块,用于根据所述句式、所述语义槽、和所述句式中非节点部分生成正则表达式,并更新正则表达式库。
进一步优选的,所述句式生成模块,进一步用于当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词。
进一步优选的,所述句式生成模块,进一步用于当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
进一步优选的,所述句式生成模块,进一步用于当所述领域知识图谱中两个相邻的节点间的关系为动词时,根据所述两个节点及所述关系得到第二句式,所述第二句式的谓语为所述关系。
通过本发明提供的一种基于知识图谱扩充正则表达式的方法和装置,能够带来以下有益效果:
1、本发明基于领域知识图谱中每个三元组自动生成正则表达式,无需人工分析句子结构、编写正则表达式,省时省力,而且效率更高。
2、本发明基于领域知识图谱自动生成正则表达式,扩充了已有的正则表达式库,使构建的正则表达式库更完善,提高语义解析的成功率,从而提高智能学习产品的用户使用体验。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种基于知识图谱扩充正则表达式的方法和装置的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明的一种基于知识图谱扩充正则表达式的方法的一个实施例的流程图;
图2是本发明的一种基于知识图谱扩充正则表达式的方法的另一个实施例的流程图;
图3是本发明的一种基于知识图谱扩充正则表达式的方法的另一个实施例的流程图;
图4是本发明的一种基于知识图谱扩充正则表达式的方法的另一个实施例的流程图;
图5是本发明的一种基于知识图谱扩充正则表达式的装置的一个实施例的结构示意图。
附图标号说明:
110.知识图谱构建模块,120.句式生成模块,130.语义槽获取模块,140.正则生成模块。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
本发明通过对正则表达式的扩充,提高语义解析的成功率;本发明提供的正则表达式的扩充方法可以应用于智能学习设备(例如:家教机),但本领域的技术人员均应明白该正则表达式的扩充方法也可应用于其他智能学习设备,只要能实现相应功能即可。
在本发明的一个实施例中,如图1所示,一种基于知识图谱扩充正则表达式的方法,包括:
步骤S100构建领域知识图谱。
具体的,知识图谱是以结构化的形式形象地描述客观世界中的概念、实体间的复杂关系。知识图谱是一张由节点和节点关系构成的网络,客观世界中的概念、实体都可以作为知识图谱中的节点,比如,人物、身高、体重、地理位置、文学作品、电影作品等都可以作为节点。知识图谱包含节点、关系、以及节点和关系构成的三元组,每一个三元组表示一条知识,即两个节点之间存在某种关系或属性,用(头节点,关系或属性,尾节点)表示(本文后续统一按此方式三元组),例如(杭州,位于,中国)表示了“杭州位于中国”这样一条知识,(苹果,颜色,红色)表示了“苹果的颜色是红色”。
领域知识图谱包括大众领域知识图谱、专业领域知识图谱、细分领域知识图谱。专业领域或细分领域知识图谱针对性更强,专业性也更强,所以根据专业领域知识图谱生成的正则表达式也更适合对应专业领域文本的语义解析,尤其针对一些专业术语的识别与解析,语义解析的成功率也会更高。比如,针对小学生的智能学习产品,需要对小学生的语音进行语义识别,如果采用根据小学生教育知识图谱生成的正则表达式用于语义识别与解析,则针对性更强。
构建领域知识图谱,需要先收集大量领域内知识,这可以从已有知识库或网络数据等方式获取;然后对获取的知识进行概念或实体抽取,并整理各个概念或实体间的关系;将每个概念或实体作为一个节点,将概念或实体间的关系作为节点间的关系,所有的节点及节点关系构成了该领域的知识图谱。
步骤S200根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式。
具体的,每两个相邻的节点及其关系构成了至少一个三元组,每个三元组对应至少一种句式。比如,节点“杭州”、节点“中国”和关系“位于”构成了三元组(杭州,位于,中国),其含义是“杭州位于中国”,根据该含义可以得到一个句式“杭州位于中国”。
又比如,三元组(王小明,父亲,王大伟)表明了“王小明的父亲是王大伟”,根据该三元组得到对应的句式“王小明的父亲是王大伟”;这两个节点间的关系存在互逆性,所以容易得到另一个三元组(王大伟,儿子,王小明),即“王大伟的儿子是王小明”,根据该三元组得到另一个句式“王大伟的儿子是王小明”。
步骤S300获取所述节点对应的语义槽;
步骤S400根据所述句式、所述语义槽、和所述句式中非节点部分生成正则表达式,并更新正则表达式库。
具体的,语义槽反映了某种特定概念,可以为某类词语。根据节点的语义,选择语义相近的词语或该语义所属类别的词语作为对应的语义槽。比如节点“王小明”,是一个人名,属于人名类,所以选择表示人名的词语作为对应的语义槽;节点“杭州”,是一个城市,所以可以选择表示城市的词语作为对应的语义槽,“杭州”也可以认为是一个地名,所以也可选择表示地名的词语作为对应的语义槽。
正则表达式是指用来描述或者匹配一系列符合某个句法规则的字符串。使用语义槽替换句式中的节点,再按照原句式结构和句式中非节点部分可以生成该句式对应的正则表达式,其中句式中非节点部分反映了节点间关系。
比如,句式“杭州位于中国”,其中节点“杭州”用地名槽(表示地名的词语)、节点“中国”用国名槽(表示国家的词语)来代替,得到对应的正则表达式为:##地名槽##[位于]##国家槽##。
又比如,句式“王大伟的儿子是王小明”,节点“王大伟”、“王小明”对应的语义槽为表示人名的词,简称人名槽,节点“王大伟”和“王小明”用语义槽替代,得到正则表达式1为:##人名槽##[的][儿子][是]##人名槽##。根据句式“王小明的父亲是王大伟”,得到:正则表达式2为:##人名槽##[的][父亲][是]##人名槽##。
使用语义槽替代节点,相当于用一种概念替代了具体实体,这样可以提升正则表达式的语义解析能力,也改善了正则表达式的泛化能力。
根据句式得到正则表达式后,再根据该正则表达式更新已有的正则表达式库,使正则表达式库更完善。
本实施例,基于领域知识图谱中每个三元组自动生成正则表达式,无需人工分析句子结构、编写正则表达式,省时省力,而且知识图谱中节点之间层级分明、关系紧密,根据知识图谱可以得到规范、经典的正则表达式;另外,本方法扩充了已有的正则表达式库,使构建的正则表达式库更完善,提高语义解析的成功率,进而提高智能学习产品的用户使用体验。
在本发明的另一个实施例中,如图2所示,一种基于知识图谱扩充正则表达式的方法,包括:
步骤S100构建领域知识图谱。
步骤S210当所述领域知识图谱中两个相邻的节点之间存在双向关系时,根据所述双向关系,分别得到不同的句式。
具体的,通常两个相邻的节点之间的关系为单向关系,根据所述单向关系得到一种三元组,根据该三元组得到一种句式。比如,节点“杭州”、节点“中国”和关系“位于”构成了三元组(杭州,位于,中国),其含义是“杭州位于中国”,根据该含义可以得到一个句式“杭州位于中国”。
有一些节点之间的关系为双向关系,根据该双向关系得到两种三元组,根据每种三元组分别得到至少一种句式。比如,节点“静夜思”、节点“李白”之间存在两种关系(“作者”、“作品”),根据这两种关系分别得到三元组(静夜思,作者,李白)和(李白,作品,静夜思),由此得到句式“静夜思的作者是李白”和“李白的作品是静夜思”。
步骤S300获取所述节点对应的语义槽;
步骤S400根据所述句式、所述语义槽、和所述句式中非节点部分生成正则表达式,并更新正则表达式库。
具体的,继续上述示例,由三元组(静夜思,作者,李白)得到句式“静夜思的作者是李白”,节点“静夜思”用诗名槽(表示诗歌名称的词语)替代、节点“李白”用人名槽(表示人名的词语)替代,得到对应的正则表达式:##诗名槽##[的][作者][是]##人名槽##。
由(李白,作品,静夜思)得到句式“李白的作品是静夜思”,节点“静夜思”用诗名槽替代、节点“李白”用人名槽替代,得到对应的正则表达式:##人名槽##[的][作品][是]##诗名槽##。
本实施例提供了一种相邻节点之间的关系为双向关系时生成正则表达式的方法。
在本发明的另一个实施例中,如图3所示,一种基于知识图谱扩充正则表达式的方法,包括:
步骤S100构建领域知识图谱。
步骤S220当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词。
具体的,当两个相邻的节点间的关系为名词时,根据这两个节点及其关系可以生成第一句式,该第一句式的谓语为判断动词“是”或“为”等。
比如,节点“李白”、节点“静夜思”、关系“作品”构成了三元组(李白,作品,静夜思),其中“作品”的词性为名词,通过在“作品”前增加助词“的”、在“作品”后增加判断动词“是”或“为”,得到第一句式:李白的作品是静夜思,该句式语义是“李白的作品是静夜思”。
步骤S230当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
具体的,当两个相邻的节点间的关系为名词时,将该关系用语义相近的动词表达,得到与第一句式语义相同或相近的不同句式。
继续上述示例,比如,关系“作品”为名词,用语义相近的动词“创作”来表达,可以得到与第一句式语义相同或相近的不同句式“李白创作静夜思”。
又比如,根据三元组(小梅,爱好,舞蹈)可以得到第一句式“小梅的爱好是舞蹈”,将其中的节点关系“爱好”用相近意思的动词表达,比如“喜欢”、或“喜爱”,可以得到与第一句式语义相同或相近的不同句式“小梅喜欢舞蹈”。
又比如,根据三元组(王大伟,职业,医生)可以得到第一句式“王大伟的职业是医生”,将“职业”用相近意思的动词表达,比如“从事...工作”,可以得到与第一句式语义相同或相近的不同句式“王大伟从事医生工作”。
步骤S300获取所述节点对应的语义槽;
步骤S400根据所述句式、所述语义槽、和所述句式中非节点部分生成正则表达式,并更新正则表达式库。
具体的,获取节点对应的语义槽,使用语义槽替代句式中的节点从而生成正则表达式。
继续上述示例,比如,第一句式“李白的作品是静夜思”,其中的节点“李白”用“人名槽”替代,节点“静夜思”用“诗名槽”替代,从而生成正则表达式“##人名槽##[的][作品][是]##诗名槽##”。与该第一句式语义相同或相近的不同句式“李白创作静夜思”,用语义槽替代节点,得到新的正则表达式“##人名槽##[创作]##诗名槽##”,该新正则表达式与“##人名槽##[的][作品][是]##诗名槽##”形式不同,但语义相同或相近。
又比如,第一句式“王大伟的职业是医生”,其中的节点“王大伟”用“人名槽”替代,节点“医生”用“职业槽”替代,从而生成正则表达式“##人名槽##[的职业是]##职业槽##”。与该第一句式语义相同或相近的不同句式“王大伟从事医生工作”,用语义槽替代节点,得到新的正则表达式“##人名槽##[从事]##职业槽##[工作]”,该新正则表达式与“##人名槽##[的职业是]##职业槽##”形式不同,但语义相同或相近。
本实施例,当节点间的关系为名词时,通过用相近语义的动词来表达该关系,从而生成新的正则表达式,扩充已有的正则表达式库,使构建的正则表达式库更完善,提升正则表达式库的语义解析能力。
在本发明的另一个实施例中,如图4所示,一种基于知识图谱扩充正则表达式的方法,包括:
步骤S100构建领域知识图谱。
步骤S220当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词。
步骤S230当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
步骤S240当所述领域知识图谱中两个相邻的节点间的关系为动词时,根据所述两个节点及所述关系得到第二句式,所述第二句式的谓语为所述关系。
步骤S250当所述领域知识图谱中两个相邻的节点间的关系为动词时,将所述关系用语义相近的名词表达,得到与所述第二句式语义相同的不同句式。
具体的,当两个相邻的节点间的关系为动词时,根据这两个节点及其关系可以生成第二句式,该第二句式采用该关系为谓语。
比如,节点“李白”、节点“静夜思”、关系“创作”构成了三元组(李白,创作,静夜思),其中“创作”的词性为动词,可以直接作为句式的谓语,得到第二句式:李白创作静夜思,该句式语义是“李白创作静夜思”。
当两个相邻的节点间的关系为动词时,将该关系用语义相近的名词表达,得到与第二句式语义相同或相近的不同句式。
继续上述示例,比如,关系“创作”为动词,用语义相近的名词“作品”来表达,可以得到与第二句式语义相同或相近的不同句式“李白的作品是静夜思”。
步骤S300获取所述节点对应的语义槽。
步骤S400根据所述句式、所述语义槽、和所述句式中非节点部分生成正则表达式,并更新正则表达式库。
具体的,获取节点对应的语义槽,使用语义槽替代句式中的节点从而生成正则表达式。
继续上述示例,比如,第二句式“李白创作静夜思”,其中的节点“李白”用“人名槽”替代,节点“静夜思”用“诗名槽”替代,从而生成正则表达式“##人名槽##[创作]##诗名槽##”。
与该第二句式语义相同或相近的不同句式“李白的作品是静夜思”,其中的节点“李白”用“人名槽”替代,节点“静夜思”用“诗名槽”替代,从而生成新的正则表达式“##人名槽##[的][作品][是]##诗名槽##”,该新正则表达式与“##人名槽##[创作]##诗名槽##”形式不同,但语义相同或相近。
本实施例,当节点间的关系为动词时,通过用相近语义的名词来表达该关系,从而生成新的正则表达式,扩充已有的正则表达式库,使构建的正则表达式库更完善,提升正则表达式库的语义解析能力。
在本发明的一个实施例中,如图5所示,一种基于知识图谱扩充正则表达式的装置,包括:
知识图谱构建模块110,用于构建领域知识图谱。
具体的,知识图谱是以结构化的形式形象地描述客观世界中的概念、实体间的复杂关系。知识图谱是一张由节点和节点关系构成的网络,客观世界中的概念、实体都可以作为知识图谱中的节点,比如,人物、身高、体重、地理位置、文学作品、电影作品等都可以作为节点。知识图谱包含节点、关系、以及节点和关系构成的三元组,每一个三元组表示一条知识,即两个节点之间存在某种关系或属性,用(头节点,关系或属性,尾节点)表示(本文后续统一按此方式三元组),例如(杭州,位于,中国)表示了“杭州位于中国”这样一条知识,(苹果,颜色,红色)表示了“苹果的颜色是红色”。
领域知识图谱包括大众领域知识图谱、专业领域知识图谱、细分领域知识图谱。专业领域或细分领域知识图谱针对性更强,专业性也更强,所以根据专业领域知识图谱生成的正则表达式也更适合对应专业领域文本的语义解析,尤其针对一些专业术语的识别与解析,语义解析的成功率也会更高。比如,针对小学生的智能学习产品,需要对小学生的语音进行语义识别,如果采用根据小学生教育知识图谱生成的正则表达式用于语义识别与解析,则针对性更强。
构建领域知识图谱,需要先收集大量领域内知识,这可以从已有知识库或网络数据等方式获取;然后对获取的知识进行概念或实体抽取,并整理各个概念或实体间的关系;将每个概念或实体作为一个节点,将概念或实体间的关系作为节点间的关系,所有的节点及节点关系构成了该领域的知识图谱。
句式生成模块120,用于根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式。
具体的,每两个相邻的节点及其关系构成了至少一个三元组,每个三元组对应至少一种句式。比如,节点“杭州”、节点“中国”和关系“位于”构成了三元组(杭州,位于,中国),其含义是“杭州位于中国”,根据该含义可以得到一个句式“杭州位于中国”。
又比如,三元组(王小明,父亲,王大伟)表明了“王小明的父亲是王大伟”,根据该三元组得到对应的句式“王小明的父亲是王大伟”;这两个节点间的关系存在互逆性,所以容易得到另一个三元组(王大伟,儿子,王小明),即“王大伟的儿子是王小明”,根据该三元组得到另一个句式“王大伟的儿子是王小明”。
语义槽获取模块130,用于获取所述节点对应的语义槽;
正则生成模块140,用于根据所述句式、所述语义槽、和所述句式中非节点部分生成正则表达式,并更新正则表达式库。
具体的,语义槽反映了某种特定概念,可以为某类词语。根据节点的语义,选择语义相近的词语或该语义所属类别的词语作为对应的语义槽。比如节点“王小明”,是一个人名,属于人名类,所以选择表示人名的词语作为对应的语义槽;节点“杭州”,是一个城市,所以可以选择表示城市的词语作为对应的语义槽,“杭州”也可以认为是一个地名,所以也可选择表示地名的词语作为对应的语义槽。
正则表达式是指用来描述或者匹配一系列符合某个句法规则的字符串。使用语义槽替换句式中的节点,再按照原句式结构和句式中非节点部分可以生成该句式对应的正则表达式,其中句式中非节点部分反映了节点间关系。
比如,句式“杭州位于中国”,其中节点“杭州”用地名槽(表示地名的词语)、节点“中国”用国名槽(表示国家的词语)来代替,得到对应的正则表达式为:##地名槽##[位于]##国家槽##。
又比如,句式“王大伟的儿子是王小明”,节点“王大伟”、“王小明”对应的语义槽为表示人名的词,简称人名槽,节点“王大伟”和“王小明”用语义槽替代,得到正则表达式1为:##人名槽##[的][儿子][是]##人名槽##。根据句式“王小明的父亲是王大伟”,得到:正则表达式2为:##人名槽##[的][父亲][是]##人名槽##。
使用语义槽替代节点,相当于用一种概念替代了具体实体,这样可以提升正则表达式的语义解析能力,也改善了正则表达式的泛化能力。
本实施例,基于领域知识图谱中每个三元组自动生成正则表达式,无需人工分析句子结构、编写正则表达式,省时省力,而且知识图谱中节点之间层级分明、关系紧密,根据知识图谱可以得到规范、经典的正则表达式;另外,本方法扩充了已有的正则表达式库,使构建的正则表达式库更完善,提高语义解析的成功率,进而提高智能学习产品的用户使用体验。
在本发明的另一个实施例中,如图5所示,一种基于知识图谱扩充正则表达式的装置,包括:
知识图谱构建模块110,用于构建领域知识图谱。
句式生成模块120,用于当所述领域知识图谱中两个相邻的节点之间存在双向关系时,根据所述双向关系,分别得到不同的句式。
具体的,通常两个相邻的节点之间的关系为单向关系,根据所述单向关系得到一种三元组,根据该三元组得到一种句式。比如,节点“杭州”、节点“中国”和关系“位于”构成了三元组(杭州,位于,中国),其含义是“杭州位于中国”,根据该含义可以得到一个句式“杭州位于中国”。
有一些节点之间的关系为双向关系,根据该双向关系得到两种三元组,根据每种三元组分别得到至少一种句式。比如,节点“静夜思”、节点“李白”之间存在两种关系(“作者”、“作品”),根据这两种关系分别得到三元组(静夜思,作者,李白)和(李白,作品,静夜思),由此得到句式“静夜思的作者是李白”和“李白的作品是静夜思”。
语义槽获取模块130,用于获取所述节点对应的语义槽。
正则生成模块140,用于根据所述句式、所述语义槽、和所述句式中非节点部分生成正则表达式,并更新正则表达式库。
具体的,继续上述示例,由三元组(静夜思,作者,李白)得到句式“静夜思的作者是李白”,节点“静夜思”用诗名槽(表示诗歌名称的词语)替代、节点“李白”用人名槽(表示人名的词语)替代,得到对应的正则表达式:##诗名槽##[的][作者][是]##人名槽##。
由(李白,作品,静夜思)得到句式“李白的作品是静夜思”,节点“静夜思”用诗名槽替代、节点“李白”用人名槽替代,得到对应的正则表达式:##人名槽##[的][作品][是]##诗名槽##。
本实施例提供了一种相邻节点之间的关系为双向关系时生成正则表达式的方法。
在本发明的另一个实施例中,如图5所示,一种基于知识图谱扩充正则表达式的装置,包括:
知识图谱构建模块110,用于构建领域知识图谱。
句式生成模块120,用于当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词;以及,当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
具体的,当两个相邻的节点间的关系为名词时,根据这两个节点及其关系可以生成第一句式,该第一句式的谓语为判断动词“是”或“为”等。
比如,节点“李白”、节点“静夜思”、关系“作品”构成了三元组(李白,作品,静夜思),其中“作品”的词性为名词,通过在“作品”前增加助词“的”、在“作品”后增加判断动词“是”或“为”,得到第一句式:李白的作品是静夜思,该句式语义是“李白的作品是静夜思”。
当两个相邻的节点间的关系为名词时,将该关系用语义相近的动词表达,得到与第一句式语义相同或相近的不同句式。
继续上述示例,比如,关系“作品”为名词,用语义相近的动词“创作”来表达,可以得到与第一句式语义相同或相近的不同句式“李白创作静夜思”。
又比如,根据三元组(小梅,爱好,舞蹈)可以得到第一句式“小梅的爱好是舞蹈”,将其中的节点关系“爱好”用相近意思的动词表达,比如“喜欢”、或“喜爱”,可以得到与第一句式语义相同或相近的不同句式“小梅喜欢舞蹈”。
又比如,根据三元组(王大伟,职业,医生)可以得到第一句式“王大伟的职业是医生”,将“职业”用相近意思的动词表达,比如“从事...工作”,可以得到与第一句式语义相同或相近的不同句式“王大伟从事医生工作”。
语义槽获取模块130,用于获取所述节点对应的语义槽。
正则生成模块140,用于根据所述句式、所述语义槽、和所述句式中非节点部分生成正则表达式,并更新正则表达式库。
具体的,获取节点对应的语义槽,使用语义槽替代句式中的节点从而生成正则表达式。
继续上述示例,比如,第一句式“李白的作品是静夜思”,其中的节点“李白”用“人名槽”替代,节点“静夜思”用“诗名槽”替代,从而生成正则表达式“##人名槽##[的][作品][是]##诗名槽##”。与该第一句式语义相同或相近的不同句式“李白创作静夜思”,用语义槽替代节点,得到新的正则表达式“##人名槽##[创作]##诗名槽##”,该新正则表达式与“##人名槽##[的][作品][是]##诗名槽##”形式不同,但语义相同或相近。
又比如,第一句式“王大伟的职业是医生”,其中的节点“王大伟”用“人名槽”替代,节点“医生”用“职业槽”替代,从而生成正则表达式“##人名槽##[的职业是]##职业槽##”。与该第一句式语义相同或相近的不同句式“王大伟从事医生工作”,用语义槽替代节点,得到新的正则表达式“##人名槽##[从事]##职业槽##[工作]”,该新正则表达式与“##人名槽##[的职业是]##职业槽##”形式不同,但语义相同或相近。
本实施例,当节点间的关系为名词时,通过用相近语义的动词来表达该关系,从而生成新的正则表达式,扩充已有的正则表达式库,使构建的正则表达式库更完善,提升正则表达式库的语义解析能力。
在本发明的另一个实施例中,如图5所示,一种基于知识图谱扩充正则表达式的装置,包括:
知识图谱构建模块110,用于构建领域知识图谱。
句式生成模块120,用于当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词;以及,当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式;以及,当所述领域知识图谱中两个相邻的节点间的关系为动词时,根据所述两个节点及所述关系得到第二句式,所述第二句式的谓语为所述关系;以及,当所述领域知识图谱中两个相邻的节点间的关系为动词时,将所述关系用语义相近的名词表达,得到与所述第二句式语义相同的不同句式。
具体的,当两个相邻的节点间的关系为动词时,根据这两个节点及其关系可以生成第二句式,该第二句式采用该关系为谓语。
比如,节点“李白”、节点“静夜思”、关系“创作”构成了三元组(李白,创作,静夜思),其中“创作”的词性为动词,可以直接作为句式的谓语,得到第二句式:李白创作静夜思,该句式语义是“李白创作静夜思”。
当两个相邻的节点间的关系为动词时,将该关系用语义相近的名词表达,得到与第二句式语义相同或相近的不同句式。
继续上述示例,比如,关系“创作”为动词,用语义相近的名词“作品”来表达,可以得到与第二句式语义相同或相近的不同句式“李白的作品是静夜思”。
语义槽获取模块130,用于获取所述节点对应的语义槽。
正则生成模块140,用于根据所述句式、所述语义槽、和所述句式中非节点部分生成正则表达式,并更新正则表达式库。
具体的,获取节点对应的语义槽,使用语义槽替代句式中的节点从而生成正则表达式。
继续上述示例,比如,第二句式“李白创作静夜思”,其中的节点“李白”用“人名槽”替代,节点“静夜思”用“诗名槽”替代,从而生成正则表达式“##人名槽##[创作]##诗名槽##”。
与该第二句式语义相同或相近的不同句式“李白的作品是静夜思”,其中的节点“李白”用“人名槽”替代,节点“静夜思”用“诗名槽”替代,从而生成新的正则表达式“##人名槽##[的][作品][是]##诗名槽##”,该新正则表达式与“##人名槽##[创作]##诗名槽##”形式不同,但语义相同或相近。
本实施例,当节点间的关系为动词时,通过用相近语义的名词来表达该关系,从而生成新的正则表达式,扩充已有的正则表达式库,使构建的正则表达式库更完善,提升正则表达式库的语义解析能力。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于知识图谱扩充正则表达式的方法,其特征在于,包括:
构建领域知识图谱;
根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式;
获取所述节点对应的语义槽;
根据所述句式、所述语义槽、和所述句式中非节点部分生成正则表达式,并更新正则表达式库。
2.根据权利要求1所述的一种基于知识图谱扩充正则表达式的方法,其特征在于,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式包括:
当所述领域知识图谱中两个相邻的节点之间存在双向关系时,根据所述双向关系,分别得到不同的句式。
3.根据权利要求1所述的一种基于知识图谱扩充正则表达式的方法,其特征在于,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:
当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词。
4.根据权利要求3所述的一种基于知识图谱扩充正则表达式的方法,其特征在于,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:
当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
5.根据权利要求1所述的一种基于知识图谱扩充正则表达式的方法,其特征在于,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:
当所述领域知识图谱中两个相邻的节点间的关系为动词时,根据所述两个节点及所述关系得到第二句式,所述第二句式的谓语为所述关系。
6.根据权利要求5所述的一种基于知识图谱扩充正则表达式的方法,其特征在于,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:
当所述领域知识图谱中两个相邻的节点间的关系为动词时,将所述关系用语义相近的名词表达,得到与所述第二句式语义相同的不同句式。
7.一种基于知识图谱扩充正则表达式的装置,其特征在于,包括:
知识图谱构建模块,用于构建领域知识图谱;
句式生成模块,用于根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式;
语义槽获取模块,用于获取所述节点对应的语义槽;
正则生成模块,用于根据所述句式、所述语义槽、和所述句式中非节点部分生成正则表达式,并更新正则表达式库。
8.根据权利要求7所述的一种基于知识图谱扩充正则表达式的装置,其特征在于:
所述句式生成模块,进一步用于当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词。
9.根据权利要求8所述的一种基于知识图谱扩充正则表达式的装置,其特征在于:
所述句式生成模块,进一步用于当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
10.根据权利要求7所述的一种基于知识图谱扩充正则表达式的装置,其特征在于:
所述句式生成模块,进一步用于当所述领域知识图谱中两个相邻的节点间的关系为动词时,根据所述两个节点及所述关系得到第二句式,所述第二句式的谓语为所述关系。
CN201910365367.6A 2019-04-30 2019-04-30 一种基于知识图谱扩充正则表达式的方法和装置 Pending CN111859976A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910365367.6A CN111859976A (zh) 2019-04-30 2019-04-30 一种基于知识图谱扩充正则表达式的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910365367.6A CN111859976A (zh) 2019-04-30 2019-04-30 一种基于知识图谱扩充正则表达式的方法和装置

Publications (1)

Publication Number Publication Date
CN111859976A true CN111859976A (zh) 2020-10-30

Family

ID=72966739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910365367.6A Pending CN111859976A (zh) 2019-04-30 2019-04-30 一种基于知识图谱扩充正则表达式的方法和装置

Country Status (1)

Country Link
CN (1) CN111859976A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及系统
WO2019024704A1 (zh) * 2017-08-03 2019-02-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN109558479A (zh) * 2018-11-29 2019-04-02 北京羽扇智信息科技有限公司 一种规则匹配方法、装置、设备及存储介质
CN109657238A (zh) * 2018-12-10 2019-04-19 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、系统、终端及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及系统
WO2019024704A1 (zh) * 2017-08-03 2019-02-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN109558479A (zh) * 2018-11-29 2019-04-02 北京羽扇智信息科技有限公司 一种规则匹配方法、装置、设备及存储介质
CN109657238A (zh) * 2018-12-10 2019-04-19 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、系统、终端及介质

Similar Documents

Publication Publication Date Title
Kahane et al. Translators' introduction
Gee et al. Nativization, linguistic theory, and deaf language acquisition
CN110532358A (zh) 一种面向知识库问答的模板自动生成方法
Hansen et al. Claims, changes and challenges in Translation Studies
KR102146433B1 (ko) 연상기억법을 이용한 문맥 기반 언어 학습 서비스 제공 방법
Kumar et al. Paraqg: A system for generating questions and answers from paragraphs
Bresnan Linguistics: The garden and the bush
KR20160108886A (ko) 개방형 정보 추출을 이용한 지식베이스 확장 방법 및 장치
CN117932022A (zh) 一种智能问答方法、装置、电子设备及存储介质
CN112231487A (zh) 一种可定制单词学习辅助系统及方法
Morgan et al. ISL-LEX v. 1: An Online Lexical Resource of Israeli Sign Language
CN111859976A (zh) 一种基于知识图谱扩充正则表达式的方法和装置
Moghadam et al. Translation of technical terms: A case of law terms
Dixon The Dyirbal kinship system
Bozia Atticism: The Language of 5th-century Oratory or a Quantifiable Stylistic Phenomenon?
Bekmanova et al. A New Approach to Developing a Terminological Dictionary of School Subjects in the Kazakh Language
Cojocaru et al. Text Generation Starting from an Ontology.
CN111858950B (zh) 一种基于知识图谱扩充正则句式的方法和装置
CN115221292A (zh) 一种生成式知识问答方法及装置
CN111858949B (zh) 基于知识图谱扩充正则表达式的方法和装置、学习设备
Wasserscheidt Explaining code-switching. Matrix language models vs. bilingual construction grammar
CN111798847A (zh) 语音交互方法、服务器和计算机可读存储介质
Priss Associative and formal concepts
CN110609995A (zh) 构建藏语问答语料库的方法及装置
De Silva et al. Multisensory learning approach to create a sentence learning platformfor students with autism spectrum disorder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination