CN111858949A - 基于知识图谱扩充正则表达式的方法和装置、学习设备 - Google Patents

基于知识图谱扩充正则表达式的方法和装置、学习设备 Download PDF

Info

Publication number
CN111858949A
CN111858949A CN201910364265.2A CN201910364265A CN111858949A CN 111858949 A CN111858949 A CN 111858949A CN 201910364265 A CN201910364265 A CN 201910364265A CN 111858949 A CN111858949 A CN 111858949A
Authority
CN
China
Prior art keywords
sentence
knowledge graph
relationship
regular expression
adjacent nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910364265.2A
Other languages
English (en)
Other versions
CN111858949B (zh
Inventor
崔颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201910364265.2A priority Critical patent/CN111858949B/zh
Publication of CN111858949A publication Critical patent/CN111858949A/zh
Application granted granted Critical
Publication of CN111858949B publication Critical patent/CN111858949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于知识图谱扩充正则表达式的方法和装置、学习设备,包括:构建领域知识图谱;根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式;获取所述两个相邻的节点中一个节点对应的扩展语义槽,所述扩展语义槽是由至少两个相同的语义槽构成;根据所述句式和所述扩展语义槽生成正则表达式,并更新正则表达式库。本发明基于领域知识图谱中每个三元组自动生成正则表达式,无需人工编写正则表达式,省时省力,而且使构建的正则表达式库更完善,提高语义解析的成功率,进而提高智能学习产品的用户使用体验。

Description

基于知识图谱扩充正则表达式的方法和装置、学习设备
技术领域
本发明涉及语义解析领域,尤指基于知识图谱扩充正则表达式的方法和装置、学习设备。
背景技术
随着社会的不断发展,越来越多的智能学习设备,比如家教机、学生平板等,在家庭中得到广泛应用。人们使用这类设备来辅助孩子学习,如在学习的过程中,碰到不会解的习题、不理解的知识点时,通过语音或文本输入相关问题或知识点,在智能学习设备中搜索对应的答案和知识讲解。
目前,在人机交互场景中,准确理解输入信息的语义是做出正确应答的基础。依靠正则表达式对语义进行解析是语义解析中的一种经典方法。该方法通过扩充正则表达式库来提升语义解析能力。一般,需要人工扩充用户语料,根据扩充的语料扩充正则表达式库,费时费力且低效;另外,可能还存在有些句式的语料未被收集到,使得构建的正则表达式库不完全,导致用户在使用时一些语料无法被正常解析,进而导致机器无法准确地理解用户的意图,降低用户的使用体验。
发明内容
本发明的目的是提供一种基于知识图谱扩充正则表达式的方法和装置、学习设备,该方法基于知识图谱生成新的正则表达式,扩充已有的正则表达式库,使构建的正则表达式库更完善,以便准确地理解用户的意图,提高语义解析的成功率。
本发明提供的技术方案如下:
一种基于知识图谱扩充正则表达式的方法,包括:构建领域知识图谱;根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式;获取所述两个相邻的节点中一个节点对应的扩展语义槽,所述扩展语义槽是由至少两个相同的语义槽构成;根据所述句式和所述扩展语义槽生成正则表达式,并更新正则表达式库。
进一步优选的,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词。
进一步优选的,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
进一步优选的,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:当所述领域知识图谱中两个相邻的节点间的关系为动词时,根据所述两个节点及所述关系得到第二句式,所述第二句式的谓语为所述关系。
进一步优选的,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:当所述领域知识图谱中两个相邻的节点间的关系为动词时,将所述关系用语义相近的名词表达,得到与所述第二句式语义相同的不同句式。
本发明还提供一种基于知识图谱扩充正则表达式的装置,包括:知识图谱构建模块,用于构建领域知识图谱;句式生成模块,用于根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式;语义槽获取模块,用于获取所述两个相邻的节点中一个节点对应的扩展语义槽,所述扩展语义槽是由至少两个相同的语义槽构成;正则生成模块,用于根据所述句式和所述扩展语义槽生成正则表达式,并更新正则表达式库。
进一步优选的,所述句式生成模块,进一步用于当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词。
进一步优选的,所述句式生成模块,进一步用于当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
进一步优选的,所述句式生成模块,进一步用于当所述领域知识图谱中两个相邻的节点间的关系为动词时,根据所述两个节点及所述关系得到第二句式,所述第二句式的谓语为所述关系。
本发明还提供一种学习设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时实现如上述任一项所述的基于知识图谱扩充正则表达式的方法的步骤。
通过本发明提供的一种基于知识图谱扩充正则表达式的方法和装置、学习设备,能够带来以下有益效果:
1、本发明基于领域知识图谱中每个三元组自动生成正则表达式,无需人工分析句子结构、编写正则表达式,省时省力,而且效率更高。
2、本发明基于领域知识图谱使用语义槽或扩展语义槽自动生成正则表达式,扩充了已有的正则表达式库,使构建的正则表达式库更完善,提高语义解析的成功率,从而提高智能学习产品的用户使用体验。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种基于知识图谱扩充正则表达式的方法和装置、学习设备的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明的一种基于知识图谱扩充正则表达式的方法的一个实施例的流程图;
图2是本发明的一种基于知识图谱扩充正则表达式的方法的另一个实施例的流程图;
图3是本发明的一种基于知识图谱扩充正则表达式的方法的另一个实施例的流程图;
图4是本发明的一种基于知识图谱扩充正则表达式的装置的一个实施例的结构示意图;
图5是本发明的一种学习设备的一个实施例的结构示意图。
附图标号说明:
110.知识图谱构建模块,120.句式生成模块,130.语义槽获取模块,140.正则生成模块,200.学习设备,210.存储器,220.处理器,230.计算机程序。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
本发明通过对正则表达式的扩充,提高语义解析的成功率;本发明提供的正则表达式的扩充方法可以应用于智能学习设备(例如:家教机),但本领域的技术人员均应明白该正则表达式的扩充方法也可应用于其他智能学习设备,只要能实现相应功能即可。
在本发明的一个实施例中,如图1所示,一种基于知识图谱扩充正则表达式的方法,包括:
步骤S100构建领域知识图谱。
具体的,知识图谱是以结构化的形式形象地描述客观世界中的概念、实体间的复杂关系。知识图谱是一张由节点和节点关系构成的网络,客观世界中的概念、实体都可以作为知识图谱中的节点,比如,人物、身高、体重、地理位置、文学作品、电影作品等都可以作为节点。知识图谱包含节点、关系、以及节点和关系构成的三元组,每一个三元组表示一条知识,即两个节点之间存在某种关系或属性,用(头节点,关系或属性,尾节点)表示(本文后续统一按此方式三元组),例如(杭州,位于,中国)表示了“杭州位于中国”这样一条知识,(苹果,颜色,红色)表示了“苹果的颜色是红色”。
领域知识图谱包括大众领域知识图谱、专业领域知识图谱、细分领域知识图谱。专业领域或细分领域知识图谱针对性更强,专业性也更强,所以根据专业领域知识图谱生成的正则表达式也更适合对应专业领域文本的语义解析,尤其针对一些专业术语的识别与解析,语义解析的成功率也会更高。比如,针对小学生的智能学习产品,需要对小学生的语音进行语义识别,如果采用根据小学生教育知识图谱生成的正则表达式用于语义识别与解析,则针对性更强。
构建领域知识图谱,需要先收集大量领域内知识,这可以从已有知识库或网络数据等方式获取;然后对获取的知识进行概念或实体抽取,并整理各个概念或实体间的关系;将每个概念或实体作为一个节点,将概念或实体间的关系作为节点间的关系,所有的节点及节点关系构成了该领域的知识图谱。
步骤S200根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式。
具体的,每两个相邻的节点及其关系构成了至少一个三元组,每个三元组对应至少一种句式。比如,节点“静夜思”、节点“李白”、关系“作者”构成了三元组(静夜思,作者,李白),其含义是“静夜思的作者是李白”,根据该含义可以得到一个句式“静夜思的作者是李白”。
又比如,节点“杭州”、节点“中国”和关系“位于”构成了三元组(杭州,位于,中国),其含义是“杭州位于中国”,根据该含义可以得到一个句式“杭州位于中国”。
步骤S300获取所述两个相邻的节点中一个节点对应的扩展语义槽,所述扩展语义槽是由至少两个相同的语义槽构成;
步骤S400根据所述句式和所述扩展语义槽生成正则表达式,并更新正则表达式库。
具体的,语义槽反映了某种特定概念,可以为某类词语。根据节点的语义,选择该语义所属类别的词语作为对应的语义槽。至少两个相同的语义槽组合在一起构成了对应的扩展语义槽。
比如节点“静夜思”,是一首诗歌名,选择表示诗歌名的词语作为对应的语义槽,记为“诗名槽”,表达了一首诗的概念;由多个诗名槽构成了扩展诗名槽,表达了多首诗的概念。扩展诗名槽有多种表现形式,比如:##诗名槽1##和##诗名槽2##(形式1)、##诗名槽1##、##诗名槽2##和##诗名槽3##(形式2),##诗名槽1##、##诗名槽2##、##诗名槽3##、以及##诗名槽4##(形式3),依次类推;以上扩展诗名槽对应的示例分别为:静夜思和赠汪伦,静夜思、赠汪伦和望庐山瀑布,静夜思、赠汪伦、望庐山瀑布、以及早发白帝城。
又比如,节点“杭州”,可以认为是一个地名,可选择表示地名的词语作为对应的语义槽,记为“地名槽”;由多个“地名槽”构成扩展地名槽,表达了多个地名。
正则表达式是指用来描述或者匹配一系列符合某个句法规则的字符串。使用扩展语义槽替换句式中的一个节点,使用语义槽替换句式中的另一个节点,再按照原句式结构和句式中非节点部分可以生成该句式对应的正则表达式,其中句式中非节点部分反映了节点间关系。
比如,句式“静夜思的作者是李白”,其中节点“静夜思”用扩展诗名槽、节点“李白”用人名槽来代替,得到对应的正则表达式为:##扩展诗名槽##[的作者是]##人名槽##。
又比如,句式“杭州位于中国”,其中节点“杭州”用扩展地名槽、节点“中国”用国名槽(表示国家的词语)来代替,得到对应的正则表达式为:##扩展地名槽##[位于]##国家槽##,其中,扩展地名槽可以是“地名槽1和地名槽2”,或“地名槽1、地名槽2和地名槽3”,依次类推;对应的示例有“南京和杭州”、“南京、苏州和杭州”。
使用语义槽替代节点,是用一种概念替代了一种具体实体;而扩展语义槽丰富了以上概念的表达形式,语义上反映了包含多个实体。使用语义槽、或扩展语义槽替代节点可以提升正则表达式的语义解析能力,也改善了正则表达式的泛化能力。
根据句式得到正则表达式后,再根据该正则表达式更新已有的正则表达式库,使正则表达式库更完善。
本实施例,基于领域知识图谱中每个三元组自动生成正则表达式,无需人工分析句子结构、编写正则表达式,省时省力,而且知识图谱中节点之间层级分明、关系紧密,根据知识图谱可以得到规范、经典的正则表达式;另外,使用扩展语义槽扩展了正则表达式的语义;如此,扩充了已有的正则表达式库,使构建的正则表达式库更完善,提高语义解析的成功率,进而提高智能学习产品的用户使用体验。
在本发明的另一个实施例中,如图2所示,一种基于知识图谱扩充正则表达式的方法,包括:
步骤S100构建领域知识图谱。
步骤S220当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词。
具体的,当两个相邻的节点间的关系为名词时,根据这两个节点及其关系可以生成第一句式,该第一句式的谓语为判断动词“是”或“为”等。
比如,节点“李白”、节点“静夜思”、关系“作品”构成了三元组(李白,作品,静夜思),其中“作品”的词性为名词,通过在“作品”前增加助词“的”、在“作品”后增加判断动词“是”或“为”,得到第一句式:“李白的作品是静夜思”,该句式语义是“李白的作品是静夜思”。
步骤S230当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
具体的,当两个相邻的节点间的关系为名词时,将该关系用语义相近的动词表达,得到与第一句式语义相同或相近的不同句式。
继续上述示例,比如,关系“作品”为名词,用语义相近的动词“创作”来表达,可以得到与第一句式语义相同或相近的不同句式“李白创作静夜思”。
步骤S300获取所述两个相邻的节点中一个节点对应的扩展语义槽,所述扩展语义槽是由至少两个相同的语义槽构成;
步骤S400根据所述句式和所述扩展语义槽生成正则表达式,并更新正则表达式库。
具体的,用语义槽替代句式中的两个节点可以生成一种正则表达式;如果一个节点用语义槽替代,另一个节点用扩展语义槽替代,可以生成另一种正则表达式。
继续上述示例,比如,第一句式“李白的作品是静夜思”,其中的节点“李白”用“人名槽”替代,节点“静夜思”用“诗名槽”替代,“诗名槽”代表了一首诗,生成正则表达式“##人名槽##[的][作品][是]##诗名槽##”。如果节点“静夜思”用“扩展诗名槽”替代,“扩展诗名槽”代表了多首诗的概念,生成另一种正则表达式“##人名槽##[的][作品][是]##扩展诗名槽##”。
与上述第一句式语义相同或相近的不同句式“李白创作静夜思”,用语义槽替代节点,得到新的正则表达式“##人名槽##[创作]##诗名槽##”,该新的正则表达式与“##人名槽##[的][作品][是]##诗名槽##”形式不同,但语义相同或相近。如果用扩展诗名槽替代节点“静夜思”,则得到新的另一种正则表达式“##人名槽##[创作]##扩展诗名槽##”,表达了创作多首诗的语义,形式上与“##人名槽##[的][作品][是]##扩展诗名槽##”不同,但语义相同或相近。
本实施例,当节点间的关系为名词时,通过用相近语义的动词来表达该关系,生成新的正则表达式;通过用扩展语义槽替代其中一个节点,又可以生成另一种正则表达式;如此扩充了已有的正则表达式库,使构建的正则表达式库更完善,提升正则表达式库的语义解析能力。
在本发明的另一个实施例中,如图3所示,一种基于知识图谱扩充正则表达式的方法,包括:
步骤S100构建领域知识图谱。
步骤S220当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词。
步骤S230当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
步骤S240当所述领域知识图谱中两个相邻的节点间的关系为动词时,根据所述两个节点及所述关系得到第二句式,所述第二句式的谓语为所述关系。
步骤S250当所述领域知识图谱中两个相邻的节点间的关系为动词时,将所述关系用语义相近的名词表达,得到与所述第二句式语义相同的不同句式。
具体的,当两个相邻的节点间的关系为动词时,根据这两个节点及其关系可以生成第二句式,该第二句式采用该关系为谓语。
比如,节点“李白”、节点“静夜思”、关系“创作”构成了三元组(李白,创作,静夜思),其中“创作”的词性为动词,可以直接作为句式的谓语,得到第二句式:李白创作静夜思,该句式语义是“李白创作静夜思”。
当两个相邻的节点间的关系为动词时,将该关系用语义相近的名词表达,得到与第二句式语义相同或相近的不同句式。
继续上述示例,比如,关系“创作”为动词,用语义相近的名词“作品”来表达,可以得到与第二句式语义相同或相近的不同句式“李白的作品是静夜思”。
步骤S300获取所述两个相邻的节点中一个节点对应的扩展语义槽,所述扩展语义槽是由至少两个相同的语义槽构成。
步骤S400根据所述句式和所述扩展语义槽生成正则表达式,并更新正则表达式库。
具体的,用语义槽替代句式中的两个节点可以生成一种正则表达式;如果一个节点用语义槽替代,另一个节点用扩展语义槽替代,可以生成另一种正则表达式。
继续上述示例,比如,第二句式“李白创作静夜思”,其中的节点“李白”用“人名槽”替代,节点“静夜思”用“诗名槽”替代,“诗名槽”代表了一首诗,生成正则表达式“##人名槽##[创作]##诗名槽##”。如果节点“静夜思”用“扩展诗名槽”替代,“扩展诗名槽”代表了多首诗的概念,生成另一种正则表达式“##人名槽##[创作]##扩展诗名槽##”。
与上述第二句式语义相同或相近的不同句式“李白的作品是静夜思”,其中的节点“李白”用“人名槽”替代,节点“静夜思”用“诗名槽”替代,生成新的正则表达式“##人名槽##[的][作品][是]##诗名槽##”,该新的正则表达式与“##人名槽##[创作]##诗名槽##”形式不同,但语义相同或相近。如果用扩展诗名槽替代节点“静夜思”,则得到新的另一种正则表达式“##人名槽##[的][作品][是]##扩展诗名槽##”,表达了创作多首诗的语义,形式上与“##人名槽##[创作]##扩展诗名槽##”不同,但语义相同或相近。
本实施例,当节点间的关系为动词时,通过用相近语义的名词来表达该关系,生成新的正则表达式;通过用扩展语义槽替代其中一个节点,又可以生成另一种正则表达式;如此扩充了已有的正则表达式库,使构建的正则表达式库更完善,提升正则表达式库的语义解析能力。
在本发明的一个实施例中,如图4所示,一种基于知识图谱扩充正则表达式的装置,包括:
知识图谱构建模块110,用于构建领域知识图谱。
具体的,知识图谱是以结构化的形式形象地描述客观世界中的概念、实体间的复杂关系。知识图谱是一张由节点和节点关系构成的网络,客观世界中的概念、实体都可以作为知识图谱中的节点,比如,人物、身高、体重、地理位置、文学作品、电影作品等都可以作为节点。知识图谱包含节点、关系、以及节点和关系构成的三元组,每一个三元组表示一条知识,即两个节点之间存在某种关系或属性,用(头节点,关系或属性,尾节点)表示(本文后续统一按此方式三元组),例如(杭州,位于,中国)表示了“杭州位于中国”这样一条知识,(苹果,颜色,红色)表示了“苹果的颜色是红色”。
领域知识图谱包括大众领域知识图谱、专业领域知识图谱、细分领域知识图谱。专业领域或细分领域知识图谱针对性更强,专业性也更强,所以根据专业领域知识图谱生成的正则表达式也更适合对应专业领域文本的语义解析,尤其针对一些专业术语的识别与解析,语义解析的成功率也会更高。比如,针对小学生的智能学习产品,需要对小学生的语音进行语义识别,如果采用根据小学生教育知识图谱生成的正则表达式用于语义识别与解析,则针对性更强。
构建领域知识图谱,需要先收集大量领域内知识,这可以从已有知识库或网络数据等方式获取;然后对获取的知识进行概念或实体抽取,并整理各个概念或实体间的关系;将每个概念或实体作为一个节点,将概念或实体间的关系作为节点间的关系,所有的节点及节点关系构成了该领域的知识图谱。
句式生成模块120,用于根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式。
具体的,每两个相邻的节点及其关系构成了至少一个三元组,每个三元组对应至少一种句式。比如,节点“静夜思”、节点“李白”、关系“作者”构成了三元组(静夜思,作者,李白),其含义是“静夜思的作者是李白”,根据该含义可以得到一个句式“静夜思的作者是李白”。
又比如,节点“杭州”、节点“中国”和关系“位于”构成了三元组(杭州,位于,中国),其含义是“杭州位于中国”,根据该含义可以得到一个句式“杭州位于中国”。
语义槽获取模块130,用于获取所述两个相邻的节点中一个节点对应的扩展语义槽,所述扩展语义槽是由至少两个相同的语义槽构成;
正则生成模块140,用于根据所述句式和所述扩展语义槽生成正则表达式,并更新正则表达式库。
具体的,语义槽反映了某种特定概念,可以为某类词语。根据节点的语义,选择该语义所属类别的词语作为对应的语义槽。至少两个相同的语义槽组合在一起构成了对应的扩展语义槽。
比如节点“静夜思”,是一首诗歌名,选择表示诗歌名的词语作为对应的语义槽,记为“诗名槽”,表达了一首诗的概念;由多个诗名槽构成了扩展诗名槽,表达了多首诗的概念。扩展诗名槽有多种表现形式,比如:##诗名槽1##和##诗名槽2##(形式1)、##诗名槽1##、##诗名槽2##和##诗名槽3##(形式2),##诗名槽1##、##诗名槽2##、##诗名槽3##、以及##诗名槽4##(形式3),依次类推;以上扩展诗名槽对应的示例分别为:静夜思和赠汪伦,静夜思、赠汪伦和望庐山瀑布,静夜思、赠汪伦、望庐山瀑布、以及早发白帝城。
又比如,节点“杭州”,可以认为是一个地名,可选择表示地名的词语作为对应的语义槽,记为“地名槽”;由多个“地名槽”构成扩展地名槽,表达了多个地名。
正则表达式是指用来描述或者匹配一系列符合某个句法规则的字符串。使用扩展语义槽替换句式中的一个节点,使用语义槽替换句式中的另一个节点,再按照原句式结构和句式中非节点部分可以生成该句式对应的正则表达式,其中句式中非节点部分反映了节点间关系。
比如,句式“静夜思的作者是李白”,其中节点“静夜思”用扩展诗名槽、节点“李白”用人名槽来代替,得到对应的正则表达式为:##扩展诗名槽##[的作者是]##人名槽##。
又比如,句式“杭州位于中国”,其中节点“杭州”用扩展地名槽、节点“中国”用国名槽(表示国家的词语)来代替,得到对应的正则表达式为:##扩展地名槽##[位于]##国家槽##,其中,扩展地名槽可以是“地名槽1和地名槽2”,或“地名槽1、地名槽2和地名槽3”,依次类推;对应的示例有“南京和杭州”、“南京、苏州和杭州”。
使用语义槽替代节点,是用一种概念替代了一种具体实体;而扩展语义槽丰富了以上概念的表达形式,语义上反映了包含多个实体。使用语义槽、或扩展语义槽替代节点可以提升正则表达式的语义解析能力,也改善了正则表达式的泛化能力。
根据句式得到正则表达式后,再根据该正则表达式更新已有的正则表达式库,使正则表达式库更完善。
本实施例,基于领域知识图谱中每个三元组自动生成正则表达式,无需人工分析句子结构、编写正则表达式,省时省力,而且知识图谱中节点之间层级分明、关系紧密,根据知识图谱可以得到规范、经典的正则表达式;另外,使用扩展语义槽扩展了正则表达式的语义;如此,扩充了已有的正则表达式库,使构建的正则表达式库更完善,提高语义解析的成功率,进而提高智能学习产品的用户使用体验。
在本发明的另一个实施例中,如图4所示,一种基于知识图谱扩充正则表达式的装置,包括:
知识图谱构建模块110,用于构建领域知识图谱。
句式生成模块120,用于当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词;以及,当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
具体的,当两个相邻的节点间的关系为名词时,根据这两个节点及其关系可以生成第一句式,该第一句式的谓语为判断动词“是”或“为”等。
比如,节点“李白”、节点“静夜思”、关系“作品”构成了三元组(李白,作品,静夜思),其中“作品”的词性为名词,通过在“作品”前增加助词“的”、在“作品”后增加判断动词“是”或“为”,得到第一句式:“李白的作品是静夜思”,该句式语义是“李白的作品是静夜思”。
当两个相邻的节点间的关系为名词时,将该关系用语义相近的动词表达,得到与第一句式语义相同或相近的不同句式。
继续上述示例,比如,关系“作品”为名词,用语义相近的动词“创作”来表达,可以得到与第一句式语义相同或相近的不同句式“李白创作静夜思”。
又比如,根据三元组(小梅,爱好,舞蹈)可以得到第一句式“小梅的爱好是舞蹈”,将其中的节点关系“爱好”用相近意思的动词表达,比如“喜欢”、或“喜爱”,可以得到与第一句式语义相同或相近的不同句式“小梅喜欢舞蹈”。
语义槽获取模块130,用于获取所述两个相邻的节点中一个节点对应的扩展语义槽,所述扩展语义槽是由至少两个相同的语义槽构成。
正则生成模块140,用于根据所述句式和所述扩展语义槽生成正则表达式,并更新正则表达式库。
具体的,用语义槽替代句式中的两个节点可以生成一种正则表达式;如果一个节点用语义槽替代,另一个节点用扩展语义槽替代,可以生成另一种正则表达式。
继续上述示例,比如,第一句式“李白的作品是静夜思”,其中的节点“李白”用“人名槽”替代,节点“静夜思”用“诗名槽”替代,“诗名槽”代表了一首诗,生成正则表达式“##人名槽##[的][作品][是]##诗名槽##”。如果节点“静夜思”用“扩展诗名槽”替代,“扩展诗名槽”代表了多首诗的概念,生成另一种正则表达式“##人名槽##[的][作品][是]##扩展诗名槽##”。
与上述第一句式语义相同或相近的不同句式“李白创作静夜思”,用语义槽替代节点,得到新的正则表达式“##人名槽##[创作]##诗名槽##”,该新的正则表达式与“##人名槽##[的][作品][是]##诗名槽##”形式不同,但语义相同或相近。如果用扩展诗名槽替代节点“静夜思”,则得到新的另一种正则表达式“##人名槽##[创作]##扩展诗名槽##”,表达了创作多首诗的语义,形式上与“##人名槽##[的][作品][是]##扩展诗名槽##”不同,但语义相同或相近。
本实施例,当节点间的关系为名词时,通过用相近语义的动词来表达该关系,生成新的正则表达式;通过用扩展语义槽替代其中一个节点,又可以生成另一种正则表达式;如此扩充了已有的正则表达式库,使构建的正则表达式库更完善,提升正则表达式库的语义解析能力。
在本发明的另一个实施例中,如图4所示,一种基于知识图谱扩充正则表达式的装置,包括:
知识图谱构建模块110,用于构建领域知识图谱。
句式生成模块120,用于当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词;以及,当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式;以及,当所述领域知识图谱中两个相邻的节点间的关系为动词时,根据所述两个节点及所述关系得到第二句式,所述第二句式的谓语为所述关系;以及,当所述领域知识图谱中两个相邻的节点间的关系为动词时,将所述关系用语义相近的名词表达,得到与所述第二句式语义相同的不同句式。
具体的,当两个相邻的节点间的关系为动词时,根据这两个节点及其关系可以生成第二句式,该第二句式采用该关系为谓语。
比如,节点“李白”、节点“静夜思”、关系“创作”构成了三元组(李白,创作,静夜思),其中“创作”的词性为动词,可以直接作为句式的谓语,得到第二句式:李白创作静夜思,该句式语义是“李白创作静夜思”。
当两个相邻的节点间的关系为动词时,将该关系用语义相近的名词表达,得到与第二句式语义相同或相近的不同句式。
继续上述示例,比如,关系“创作”为动词,用语义相近的名词“作品”来表达,可以得到与第二句式语义相同或相近的不同句式“李白的作品是静夜思”。
语义槽获取模块130,用于获取所述两个相邻的节点中一个节点对应的扩展语义槽,所述扩展语义槽是由至少两个相同的语义槽构成。
正则生成模块140,用于根据所述句式和所述扩展语义槽生成正则表达式,并更新正则表达式库。
具体的,用语义槽替代句式中的两个节点可以生成一种正则表达式;如果一个节点用语义槽替代,另一个节点用扩展语义槽替代,可以生成另一种正则表达式。
继续上述示例,比如,第二句式“李白创作静夜思”,其中的节点“李白”用“人名槽”替代,节点“静夜思”用“诗名槽”替代,“诗名槽”代表了一首诗,生成正则表达式“##人名槽##[创作]##诗名槽##”。如果节点“静夜思”用“扩展诗名槽”替代,“扩展诗名槽”代表了多首诗的概念,生成另一种正则表达式“##人名槽##[创作]##扩展诗名槽##”。
与上述第二句式语义相同或相近的不同句式“李白的作品是静夜思”,其中的节点“李白”用“人名槽”替代,节点“静夜思”用“诗名槽”替代,生成新的正则表达式“##人名槽##[的][作品][是]##诗名槽##”,该新的正则表达式与“##人名槽##[创作]##诗名槽##”形式不同,但语义相同或相近。如果用扩展诗名槽替代节点“静夜思”,则得到新的另一种正则表达式“##人名槽##[的][作品][是]##扩展诗名槽##”,表达了创作多首诗的语义,形式上与“##人名槽##[创作]##扩展诗名槽##”不同,但语义相同或相近。
本实施例,当节点间的关系为动词时,通过用相近语义的名词来表达该关系,生成新的正则表达式;通过用扩展语义槽替代其中一个节点,又可以生成另一种正则表达式;如此扩充了已有的正则表达式库,使构建的正则表达式库更完善,提升正则表达式库的语义解析能力。
在本发明的一个实施例中,如图5所示,一种学习设备200,包括存储器210及处理器220。所述存储器210用于存储计算机程序230。所述处理器运行所述计算机程序时实现如前述记载的基于知识图谱扩充正则表达式的方法。
作为一个示例,所述处理器执行计算机程序时实现根据前述记载的步骤S100至S400。
另外地,所述处理器执行计算机程序时实现前述记载的基于知识图谱扩充正则表达式的装置的各模块、单元的功能。作为又一个示例,所述处理器执行计算机程序时实现知识图谱构建模块110、句式生成模块120、语义槽获取模块130、及正则生成模块140的功能。
可选地,根据完成本发明的具体需要,所述计算机程序可以被分割为一个或多个模块/单元。每个模块/单元可以为能够完成特定功能的一系列计算机程序指令段。该计算机程序指令段用于描述所述计算机程序在基于知识图谱扩充正则表达式的装置中的执行过程。作为示例,所述计算机程序可以被分割为虚拟装置中的各个模块/单元,譬如知识图谱构建模块、句式生成模块、语义槽获取模块及正则生成模块。相应地,知识图谱构建模块,用于构建领域知识图谱;句式生成模块,用于根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式;语义槽获取模块,用于获取所述两个相邻的节点中一个节点对应的扩展语义槽,所述扩展语义槽是由至少两个相同的语义槽构成;正则生成模块,用于根据所述句式和所述扩展语义槽生成正则表达式,并更新正则表达式库。
所述处理器用于通过执行所述计算机程序从而实现基于知识图谱扩充正则表达式。根据需要,所述处理器可以是中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、通用处理器或其他逻辑器件等。
所述存储器可以为任意能够实现数据、程序存储的内部存储单元和/或外部存储设备。譬如,所述存储器可以为插接式硬盘、智能存储卡(SMC)、安全数字(SD)卡或闪存卡等。所述存储器用于存储计算机程序、基于知识图谱扩充正则表达式的装置的其他程序及数据。所述存储器还可以用于暂时存储已经输出或将要输出的数据。
所述学习设备200可以为家教机、平板型终端、桌上型计算机、笔记本、掌上电脑、手机等。根据需要,所述学习设备200还可以包括输入输出设备、显示设备、网络接入设备及总线等。所述学习设备200还可以是单片机,或集成了中央处理单元(CPU)及图形处理单元(GPU)的计算设备。
本领域技术人员可以理解的是,上述用于实现相应功能的单元、模块的划分是出于便利于说明、叙述的目的,根据应用需求,将上述单元、模块做进一步的划分或者组合,即将装置/设备的内部结构重新进行划分、组合,以实现的上述记载的功能。上述实施例中的各个单元、模块可以分别采用单独的物理单元,也可以将两个或两个以上的单元、模块集成在一个物理单元。上述实施例中的各个单元、模块可以采用硬件和/或软件功能单元的实现对应的功能。上述实施例中的多个单元、组件、模块之间可以的直接耦合、间接耦合或通讯连接可以通过总线或者接口实现;多个单元或装置的之间的耦合、连接,可以是电性、机械或类似的方式。相应地,上述实施例中的各个单元、模块的具体名称也只是为了便于叙述及区分,并不用于限制本申请的保护范围。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于知识图谱扩充正则表达式的方法,其特征在于,包括:
构建领域知识图谱;
根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式;
获取所述两个相邻的节点中一个节点对应的扩展语义槽,所述扩展语义槽是由至少两个相同的语义槽构成;
根据所述句式和所述扩展语义槽生成正则表达式,并更新正则表达式库。
2.根据权利要求1所述的一种基于知识图谱扩充正则表达式的方法,其特征在于,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:
当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词。
3.根据权利要求2所述的一种基于知识图谱扩充正则表达式的方法,其特征在于,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:
当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
4.根据权利要求1所述的一种基于知识图谱扩充正则表达式的方法,其特征在于,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:
当所述领域知识图谱中两个相邻的节点间的关系为动词时,根据所述两个节点及所述关系得到第二句式,所述第二句式的谓语为所述关系。
5.根据权利要求4所述的一种基于知识图谱扩充正则表达式的方法,其特征在于,所述的根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式还包括:
当所述领域知识图谱中两个相邻的节点间的关系为动词时,将所述关系用语义相近的名词表达,得到与所述第二句式语义相同的不同句式。
6.一种基于知识图谱扩充正则表达式的装置,其特征在于,包括:
知识图谱构建模块,用于构建领域知识图谱;
句式生成模块,用于根据所述领域知识图谱中两个相邻的节点及其之间关系得到至少一个句式;
语义槽获取模块,用于获取所述两个相邻的节点中一个节点对应的扩展语义槽,所述扩展语义槽是由至少两个相同的语义槽构成;
正则生成模块,用于根据所述句式和所述扩展语义槽生成正则表达式,并更新正则表达式库。
7.根据权利要求6所述的一种基于知识图谱扩充正则表达式的装置,其特征在于:
所述句式生成模块,进一步用于当所述领域知识图谱中两个相邻的节点间的关系为名词时,根据所述两个节点及所述关系得到第一句式,所述第一句式的谓语为判断动词。
8.根据权利要求7所述的一种基于知识图谱扩充正则表达式的装置,其特征在于:
所述句式生成模块,进一步用于当所述领域知识图谱中两个相邻的节点之间的关系为名词时,将所述关系用语义相近的动词表达,得到与所述第一句式语义相同的不同句式。
9.根据权利要求6所述的一种基于知识图谱扩充正则表达式的装置,其特征在于:
所述句式生成模块,进一步用于当所述领域知识图谱中两个相邻的节点间的关系为动词时,根据所述两个节点及所述关系得到第二句式,所述第二句式的谓语为所述关系。
10.一种学习设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时实现如权利要求1-5中任一项所述的基于知识图谱扩充正则表达式的方法的步骤。
CN201910364265.2A 2019-04-30 2019-04-30 基于知识图谱扩充正则表达式的方法和装置、学习设备 Active CN111858949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910364265.2A CN111858949B (zh) 2019-04-30 2019-04-30 基于知识图谱扩充正则表达式的方法和装置、学习设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910364265.2A CN111858949B (zh) 2019-04-30 2019-04-30 基于知识图谱扩充正则表达式的方法和装置、学习设备

Publications (2)

Publication Number Publication Date
CN111858949A true CN111858949A (zh) 2020-10-30
CN111858949B CN111858949B (zh) 2024-05-14

Family

ID=72965194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910364265.2A Active CN111858949B (zh) 2019-04-30 2019-04-30 基于知识图谱扩充正则表达式的方法和装置、学习设备

Country Status (1)

Country Link
CN (1) CN111858949B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152191A1 (en) * 2001-02-23 2002-10-17 Hollenberg Lloyd Christopher Leonard Method of interrogating a database using a quantum computer
CN101727447A (zh) * 2008-10-10 2010-06-09 浙江搜富网络技术有限公司 基于url的正则表达式的生成方法和装置
CN109271492A (zh) * 2018-11-16 2019-01-25 广东小天才科技有限公司 一种语料正则表达式的自动生成方法及系统
CN109558479A (zh) * 2018-11-29 2019-04-02 北京羽扇智信息科技有限公司 一种规则匹配方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152191A1 (en) * 2001-02-23 2002-10-17 Hollenberg Lloyd Christopher Leonard Method of interrogating a database using a quantum computer
CN101727447A (zh) * 2008-10-10 2010-06-09 浙江搜富网络技术有限公司 基于url的正则表达式的生成方法和装置
CN109271492A (zh) * 2018-11-16 2019-01-25 广东小天才科技有限公司 一种语料正则表达式的自动生成方法及系统
CN109558479A (zh) * 2018-11-29 2019-04-02 北京羽扇智信息科技有限公司 一种规则匹配方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111858949B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
US10853398B2 (en) Generating three-dimensional digital content from natural language requests
US11264006B2 (en) Voice synthesis method, device and apparatus, as well as non-volatile storage medium
CN107798123B (zh) 知识库及其建立、修改、智能问答方法、装置及设备
Derwojedowa et al. Words, concepts and relations in the construction of Polish WordNet
Alexander et al. Natural language web interface for database (NLWIDB)
CN103392177A (zh) 本体扩展
US10083398B2 (en) Framework for annotated-text search using indexed parallel fields
CN109325040A (zh) 一种faq问答库泛化方法、装置及设备
JP7093397B2 (ja) 質問応答ロボットの生成方法および装置
CN110427478A (zh) 一种基于知识图谱的问答搜索方法及系统
CN111553138B (zh) 用于规范内容结构文档的辅助写作方法及装置
CN111309863A (zh) 基于知识图谱的自然语言问答方法及装置
CN109117474A (zh) 语句相似度的计算方法、装置及存储介质
CN111178076A (zh) 命名实体识别与链接方法、装置、设备及可读存储介质
CN114490984A (zh) 基于关键词指导的问答知识抽取方法、装置、设备及介质
CN111859974A (zh) 一种结合知识图谱的语义消歧方法和装置、智能学习设备
CN113392220A (zh) 一种知识图谱生成方法、装置、计算机设备及存储介质
CN114861639B (zh) 提问信息生成方法、装置、电子设备及存储介质
CN111858949B (zh) 基于知识图谱扩充正则表达式的方法和装置、学习设备
CN111159384B (zh) 基于规则的句子生成方法和装置
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
CN111797637B (zh) 交互式标注方法及装置
CN114428788A (zh) 自然语言处理方法、装置、设备及存储介质
CN111859976B (zh) 一种基于知识图谱扩充正则表达式的方法和装置
CN111858950B (zh) 一种基于知识图谱扩充正则句式的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant