CN108415929B - 一种基于复述生成技术的指令分析方法、电子设备及存储介质 - Google Patents

一种基于复述生成技术的指令分析方法、电子设备及存储介质 Download PDF

Info

Publication number
CN108415929B
CN108415929B CN201810053429.5A CN201810053429A CN108415929B CN 108415929 B CN108415929 B CN 108415929B CN 201810053429 A CN201810053429 A CN 201810053429A CN 108415929 B CN108415929 B CN 108415929B
Authority
CN
China
Prior art keywords
instruction
seed
knowledge base
query
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810053429.5A
Other languages
English (en)
Other versions
CN108415929A (zh
Inventor
石忠民
徐叶强
林嘉亮
雷力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Original Assignee
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD filed Critical GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority to CN201810053429.5A priority Critical patent/CN108415929B/zh
Publication of CN108415929A publication Critical patent/CN108415929A/zh
Application granted granted Critical
Publication of CN108415929B publication Critical patent/CN108415929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于复述生成技术的指令分析方法,包括如下步骤:指令输入步骤,包括输入查询指令;指令查询步骤,包括建立种子指令知识库,种子指令知识库包括纯文本种子指令知识库和正则种子指令知识库;指令解释步骤,包括建立扩展指令语料库;指令分析步骤,包括对查询指令进行纯文本匹配,若查询指令与种子指令相匹配,则返回相对应的指令解释;否则进行正则匹配,若查询指令与种子指令相匹配,则返回相对应的指令解释;否则显示无结果。本发明的方法能够结合指令特点,快速地构建复述的指令分析系统进行识别匹配,正确理解指令语义,匹配效率高。

Description

一种基于复述生成技术的指令分析方法、电子设备及存储 介质
技术领域
本发明涉及自然语言生成领域,尤其涉及一种基于复述生成技术的指令分析方法、电子设备及存储介质。
背景技术
复述技术是自然语言处理领域中重要的技术。借助复述技术,能够有效提升自然语言处理许多基础任务操作的效果。例如在问答系统中,不同用户存在着不同表达,但希望得到的结果和回应都是一致的。事实上,生活中存在大量的指令分析系统,例如智能手机的语音助手、智能家居的语音控制平台,但要让机器准确地识别不同表达的句子属于同一语义和及其深层意图是非常困难的,尤其是针对像指令这样的短信息文本。因为指令信息通常在十二个词左右,对于语法的要求也不严格,存在着大量不同的表述方式。例如“帮我增加电风扇的档位”,可以表达成“电扇档位大一点”、“电风扇风速大一点”以及“风扇大一点”。甚至是描述性、感受性的隐性指令“电风扇的风力小了”、“我感觉不够凉快”等等,这就极大增加了识别的难度。
发明内容
为解决现有技术的不足,本发明的目的之一在于提供了一种基于复述生成技术的指令分析方法,本方法能在短时间内构建复述的指令分析系统进行识别匹配,匹配效率高。
本发明的目的之二在于提供一种电子设备,用于在短时间内构建复述的指令分析系统进行识别匹配,匹配效率高。
本发明的目的之三在于提供一种存储介质,用于在短时间内构建复述的指令分析系统进行识别匹配,匹配效率高。
本发明的目的之一采用如下技术方案实现:
一种基于复述生成技术的指令分析方法,包括如下步骤:
指令输入步骤,所述指令输入步骤包括输入查询指令;
指令查询步骤,所述指令查询步骤包括建立种子指令知识库,所述种子指令知识库包括纯文本种子指令知识库和正则种子指令知识库,所述纯文本种子指令知识库和所述正则种子指令知识库用于对所述查询指令与种子指令进行匹配;
指令解释步骤,所述指令解释步骤包括建立扩展指令语料库,所述扩展指令语料库包括指令解释,所述指令解释包括通过分析所述种子指令得到的反馈内容;
指令分析步骤,所述指令分析步骤包括对所述查询指令进行纯文本匹配,若查询指令与所述纯文本种子指令知识库中的种子指令相匹配,则返回与种子指令相对应的指令解释;否则进行正则匹配,若查询指令与所述正则种子指令知识库中的种子指令相匹配,则返回与种子指令相对应的指令解释;否则显示无结果。
进一步地,所述种子指令知识库包括同义词网络,所述同义词网络包括根据种子指令的所在领域收集同义词,所述同义词通过图模型进行连接形成同义词网络。
进一步地,所述种子指令知识库还包括语义简化词库,所述语义简化词库包括删除种子指令的不必要成分,所述不必要成分包括对所述种子指令的核心语义不产生影响的部分。
进一步地,所述建立扩展指令语料库包括对种子指令做笛卡尔积和全排列形成扩展指令语料库,所述扩展指令语料库包括纯文本扩展指令语料库和正则匹配扩展指令语料库。
进一步地,所述指令查询步骤之前还包括预处理步骤,所述预处理步骤包括删除指令中的无关要素,所述无关要素包括对指令的核心语义不产生影响的部分。
本发明的目的之二采用如下技术方案实现:
一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法。
本发明的目的之三采用如下技术方案来实现:
一种计算机可读存储介质,其上存储计算机程序,该程序被处理器执行所述程序时实现上述的方法。
相比于现有技术的不足,本发明的有益效果是:本发明的方法能够结合指令特点,快速地构建复述的指令分析系统进行识别匹配,正确理解指令语义,匹配效率高。
附图说明
图1为本发明生成扩展指令语料库的流程图;
图2为本发明对指令信息匹配解释的流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
实施例一:
一种基于复述生成技术的指令分析方法,应用于智能终端中,例如智能手机的语音识别系统或智能家居的语音识别平台,将人工语言通过该方法转化为智能终端可识别的指令,从而达到用户的需求,该方法包括如下步骤:
指令输入步骤,所述指令输入步骤包括输入查询指令;
指令查询步骤,所述指令查询步骤包括建立种子指令知识库,所述种子指令知识库包括纯文本种子指令知识库和正则种子指令知识库,所述纯文本种子指令知识库和所述正则种子指令知识库用于对所述查询指令与种子指令进行匹配;
指令解释步骤,所述指令解释步骤包括建立扩展指令语料库,所述扩展指令语料库包括指令解释,所述指令解释包括通过分析所述种子指令得到的反馈内容;
指令分析步骤,所述指令分析步骤包括对所述查询指令进行纯文本匹配,若查询指令与所述纯文本种子指令知识库中的种子指令相匹配,则返回与种子指令相对应的指令解释;否则进行正则匹配,若查询指令与所述正则种子指令知识库中的种子指令相匹配,则返回与种子指令相对应的指令解释;否则显示无结果。
种子指令知识库包括同义词网络,同义词网络包括根据种子指令的所在领域收集同义词,同义词通过图模型进行连接形成同义词网络。
种子指令知识库还包括语义简化词库,语义简化词库包括删除种子指令的不必要成分,不必要成分包括对所述种子指令的核心语义不产生影响的部分。
其中,建立扩展指令语料库包括对种子指令做笛卡尔积和全排列形成扩展指令语料库。
纯文本匹配步骤之前还包括预处理步骤,预处理步骤包括删除指令中的无关要素。
上述方案也可以理解为:
在进行指令分析之前,需要建立种子指令知识库和扩展指令语料库,种子指令知识库是查询指令的基础,扩展指令语料库用于对查询指令进行解释匹配。
建立种子指令知识库,首先要构建同义词网络和语义简化词库,同义词网络是指,针对指令匹配所需领域,收集同义词库,并在同义词库每组同义词中选取一个词作为基准词,并将所有的同义词通过图模型连接形成同义词网络,例如在家电领域,我们将收集家电同义词,例如:以“抽油烟机”为基准词,则同义词为“烟机”、“油烟机”、“抽烟机”等,执行指令同义词,如“打开”作为基准词,则同义词为“开”、“开启”等;
制定语义简化词库,是指对指令语句进行句法的简化,包括去掉不必要的修饰词,只留下主干部分,语义简化词库将收集领域内对指令核心语义不会产生影响的词。例如“赶紧给我把油烟机的风力一直开到三挡”,其中,“赶紧”、“给我”、“把”、“的”、“一直”都属于修饰词,去掉后的指令“油烟机风力开到三挡”并不影响实际指令操作的效果。
根据同义词网络和语义简化词库,获取纯文本种子指令知识库,即针对指令所在领域,收集相关指令语料,并用同义词网络中的基准词替换和语义简化词库的句法简化,对所有原始指令进行上述替换和简化的操作后得到纯文本种子指令知识库,其中每一条指令对应一个解释,所述的解释即为系统通过分析查询指令后应该反馈的内容,例如,“开一下电脑”的解释可以是打开电脑电源的操作。
针对一些设计数字变化的指令,例如“将抽油烟机的清新模式开启2分钟30秒”,先进行同义词替换和语义简化,得到“烟机清新模式打开2分钟30秒”,其中时间是可变的,因此无法通过穷举时间作为纯文本进行匹配,此时只能通过正则匹配,将2分30秒作为正则匹配项,因此该指令的表达式可以是([0-9]{1,})分钟([0-9]{1,})秒。完成操作后得到正则匹配种子指令知识库,每条指令同样与指令解释一一对应,正则匹配种子指令知识库与纯文本种子指令知识库组成种子指令知识库。
为了使指令匹配相应的解释,生成扩展指令语料库,通过同义词网络对种子指令知识库中的每一条种子指令进行同义词扩展,由原来的基准词扩展为多个同义词,并对多个同义词做笛卡尔积生成扩展指令语料,为了使同一语义但语序不同的指令能够匹配成功,对多个同义词进行全排列,例如“打开电视”将被扩展为新的语料“电视打开”。至此扩展操作后的每一条语料都会对应一个解释,用于理解指令语义,从而形成扩展指令语料库。
基于上述种子指令知识库和扩展指令语料库,对输入指令进行查询分析。
首先,基于种子指令知识库对输入指令进行查询,对查询指令进行预处理,包括对输入指令的指令信息数据去除首尾空格和标点、中文数字转阿拉伯数字等操作,再利用语义简化词库,对预处理后的指令进行语义简化;
然后,再利用纯文本扩展指令语料库的指令解释对预处理后的指令进行全匹配,得到匹配结果,若存在,则返回指令的解释,否则进行正则匹配;
通过正则扩展指令语料库的指令解释对指令进行全匹配,得到匹配结果,若存在,则返回指令的解释,否则显示无结果。
实施例二:
一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法。
实施例三:
一种计算机可读存储介质,其上存储计算机程序,该程序被处理器执行所述程序时实现上述的方法。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (7)

1.一种基于复述生成技术的指令分析方法,其特征在于包括如下步骤:
指令输入步骤,所述指令输入步骤包括输入查询指令;
指令查询步骤,所述指令查询步骤包括建立种子指令知识库,所述种子指令知识库包括纯文本种子指令知识库和正则种子指令知识库,所述纯文本种子指令知识库和所述正则种子指令知识库用于对所述查询指令与种子指令进行匹配;
指令解释步骤,所述指令解释步骤包括建立扩展指令语料库,所述扩展指令语料库包括指令解释,所述指令解释包括通过分析所述种子指令得到的反馈内容;
指令分析步骤,所述指令分析步骤包括对所述查询指令进行纯文本匹配,若查询指令与所述纯文本种子指令知识库中的种子指令相匹配,则返回与种子指令相对应的指令解释;否则进行正则匹配,若查询指令与所述正则种子指令知识库中的种子指令相匹配,则返回与种子指令相对应的指令解释;否则显示无结果。
2.如权利要求1所述的基于复述生成技术的指令分析方法,其特征在于:所述种子指令知识库包括同义词网络,所述同义词网络包括根据种子指令的所在领域收集同义词,所述同义词通过图模型进行连接形成同义词网络。
3.如权利要求2所述的基于复述生成技术的指令分析方法,其特征在于:所述种子指令知识库还包括语义简化词库,所述语义简化词库包括删除种子指令的不必要成分,所述不必要成分包括对所述种子指令的核心语义不产生影响的部分。
4.如权利要求1所述的基于复述生成技术的指令分析方法,其特征在于:所述建立扩展指令语料库包括对种子指令做笛卡尔积和全排列形成扩展指令语料库,所述扩展指令语料库包括纯文本扩展指令语料库和正则匹配扩展指令语料库。
5.如权利要求1所述的基于复述生成技术的指令分析方法,其特征在于:所述指令查询步骤之前还包括预处理步骤,所述预处理步骤包括删除指令中的无关要素,所述无关要素包括对指令的核心语义不产生影响的部分。
6.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-5任一项所述的方法。
7.一种计算机可读存储介质,其上存储计算机程序,该程序被处理器执行所述程序时实现权利要求1-5任一项所述的方法。
CN201810053429.5A 2018-01-19 2018-01-19 一种基于复述生成技术的指令分析方法、电子设备及存储介质 Active CN108415929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810053429.5A CN108415929B (zh) 2018-01-19 2018-01-19 一种基于复述生成技术的指令分析方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810053429.5A CN108415929B (zh) 2018-01-19 2018-01-19 一种基于复述生成技术的指令分析方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN108415929A CN108415929A (zh) 2018-08-17
CN108415929B true CN108415929B (zh) 2021-07-27

Family

ID=63125803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810053429.5A Active CN108415929B (zh) 2018-01-19 2018-01-19 一种基于复述生成技术的指令分析方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN108415929B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1908935A (zh) * 2006-08-01 2007-02-07 华为技术有限公司 一种自然语言的搜索方法及系统
CN106326363A (zh) * 2016-08-11 2017-01-11 海信集团有限公司 一种基于正则表达式的匹配方法及装置
CN107247783A (zh) * 2017-06-14 2017-10-13 上海思依暄机器人科技股份有限公司 一种语音搜索音乐的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2520878A (en) * 2012-08-17 2015-06-03 Opera Solutions Llc System and method for matching data using probabilistic modeling techniques

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1908935A (zh) * 2006-08-01 2007-02-07 华为技术有限公司 一种自然语言的搜索方法及系统
CN106326363A (zh) * 2016-08-11 2017-01-11 海信集团有限公司 一种基于正则表达式的匹配方法及装置
CN107247783A (zh) * 2017-06-14 2017-10-13 上海思依暄机器人科技股份有限公司 一种语音搜索音乐的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于GRETA正则表达式的机器人解释器的研究;何嘉健等;《组合机床与自动化加工技术》;20120516(第1期);第17-19页 *

Also Published As

Publication number Publication date
CN108415929A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN100458795C (zh) 一种智能组词输入的方法和一种输入法系统及其更新方法
CN106776532B (zh) 一种知识问答方法及装置
KR20200007969A (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN112749266B (zh) 一种工业问答方法、装置、系统、设备及存储介质
CN102439590A (zh) 用于自然语言文本的自动语义标注的系统和方法
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN111159363A (zh) 一种基于知识库的问题答案确定方法及装置
CN116805001A (zh) 适用于垂直领域的智能问答系统、方法及其应用
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN110019712A (zh) 多意图查询方法和装置、计算机设备及计算机可读存储介质
CN110929007A (zh) 一种电力营销知识体系平台及应用方法
CN110019713A (zh) 基于意图理解的数据检索方法和装置、设备及存储介质
CN106557165A (zh) 智能设备的动作模拟交互方法和装置及智能设备
CN113515616B (zh) 一种基于自然语言的任务驱动系统
CN107480197B (zh) 实体词识别方法及装置
CN108415929B (zh) 一种基于复述生成技术的指令分析方法、电子设备及存储介质
CN117216226A (zh) 一种知识定位方法、装置、存储介质及设备
CN110019714A (zh) 基于历史结果的多意图查询方法、装置、设备及存储介质
CN117033579A (zh) 一种基于llms的新型知识库系统及方法
Ma et al. Scenario-based microservice retrieval using Word2Vec
CN114580407A (zh) 一种基于最大熵的园区产业招商智能咨询方法及系统
CN114238595A (zh) 一种基于知识图谱的冶金知识问答方法及系统
CN113962213A (zh) 一种多轮对话生成方法、终端及计算机可读存储介质
CN113590797A (zh) 一种智能运维客服系统及实现方法
Talita et al. Challenges in building domain ontology for minority languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant