CN112102844B - 离线识别xbnf的编写和维护方法和装置 - Google Patents

离线识别xbnf的编写和维护方法和装置 Download PDF

Info

Publication number
CN112102844B
CN112102844B CN202011237669.4A CN202011237669A CN112102844B CN 112102844 B CN112102844 B CN 112102844B CN 202011237669 A CN202011237669 A CN 202011237669A CN 112102844 B CN112102844 B CN 112102844B
Authority
CN
China
Prior art keywords
semantic slot
statement
xbnf
column
definition information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011237669.4A
Other languages
English (en)
Other versions
CN112102844A (zh
Inventor
邹学勇
胡明国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN202011237669.4A priority Critical patent/CN112102844B/zh
Publication of CN112102844A publication Critical patent/CN112102844A/zh
Application granted granted Critical
Publication of CN112102844B publication Critical patent/CN112102844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种离线识别xbnf的编写和维护方法和装置,其中,离线识别xbnf的编写和维护方法,包括:遍历预设的语料表格,判断遍历的当前栏是否是语义槽栏;若当前栏是语义槽栏,获取所述语义槽栏中的语义槽定义信息,将所述语义槽定义信息写入xbnf顶部,其中,所述语料表格至少包括所述语义槽栏和领域栏,所述语义槽栏中包括语义槽定义信息,所述领域栏包括所述领域栏对应的领域内的说法;基于所述写入xbnf顶部的语义槽定义信息,遍历所述领域内的说法,将所述说法与所述语义槽定义信息汇总后逐行写入所述xbnf,同时拼接语义领域信息形成汇总说法;检测所述汇总说法,排除所述汇总说法内存在的xbnf语法错误。

Description

离线识别xbnf的编写和维护方法和装置
技术领域
本发明属于语音识别领域,尤其涉及离线识别xbnf的编写和维护方法和装置。
背景技术
在语音离线识别技术上,原实现方式大部分是根据产品需求,开发人员手动编写对应的 xbnf 语法文件,编译 xbnf 生成对应的识别模型资源,然后加载到离线识别引擎,输入音频即输出识别的文本和语义。
发明内容
本发明实施例提供一种离线识别xbnf的编写和维护方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种离线识别xbnf的编写和维护方法,包括:遍历预设的语料表格,判断遍历的当前栏是否是语义槽栏;若当前栏是语义槽栏,获取所述语义槽栏中的语义槽定义信息,将所述语义槽定义信息写入xbnf顶部,其中,所述语料表格至少包括所述语义槽栏和领域栏,所述语义槽栏中包括语义槽定义信息,所述领域栏包括所述领域栏对应的领域内的说法;基于所述写入xbnf顶部的语义槽定义信息,遍历所述领域内的说法,将所述说法与所述语义槽定义信息汇总后逐行写入所述xbnf,同时拼接语义领域信息形成汇总说法;检测所述汇总说法,排除所述汇总说法内存在的xbnf语法错误。
第二方面,本发明实施例提供一种离线识别xbnf的编写和维护装置,包括:遍历判断模块,配置为遍历预设的语料表格,判断遍历的当前栏是否是语义槽栏;获取写入模块,配置为若当前栏是语义槽栏,获取所述语义槽栏中的语义槽定义信息,将所述语义槽定义信息写入xbnf顶部,其中,所述语料表格至少包括所述语义槽栏和领域栏,所述语义槽栏中包括语义槽定义信息,所述领域栏包括所述领域栏对应的领域内的说法;遍历写入拼接模块,配置为基于所述写入xbnf顶部的语义槽定义信息,遍历所述领域内的说法,将所述说法与所述语义槽定义信息汇总后逐行写入所述xbnf,同时拼接语义领域信息形成汇总说法;检测排除模块,配置为检测所述汇总说法,排除所述汇总说法内存在的xbnf语法错误。
第三方面,提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行第一方面所述的离线识别xbnf的编写和维护方法的步骤。
第四方面,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述方法的步骤。
本申请实施例提供的方法通过开发者整理需求的各领域和各领域的说法按照约定格式输出表格和遍历预设的语料表格,自动生成的xbnf语法文件,从而可以实现提升语料说法的可维护性和降低复杂性和降低开发者二次编辑的xbnf语法导致的错误概率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种离线识别xbnf的编写和维护方法的流程图;
图2为本发明一实施例提供的另一种离线识别xbnf的编写和维护方法的流程图;
图3为本发明一实施例提供的另一种离线识别xbnf的编写和维护方法的流程图;
图4为本发明一实施例提供的另一种离线识别xbnf的编写和维护方法的流程图;
图5为本发明一实施例提供的另一种离线识别xbnf的编写和维护方法的流程图;
图6a为本发明一实施例的离线识别xbnf的编写和维护的方案一具体实施例的离线识别xbnf的编写和维护的流程图;
图6b为本发明一实施例示出的语料表格中语义槽栏的部分内容的截图示意图;
图6c为本发明一实施例示出的语料表格中一个领域栏的部分内容的截图示意图;
图7为本发明一实施例提供的一种离线识别xbnf的编写和维护装置的框图;
图8为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本发明的一种离线识别xbnf的编写和维护方法的一实施例的流程图。
如图1所示,在步骤101中遍历预设的语料表格,判断遍历的当前栏是否是语义槽栏;
在步骤102中,若当前栏是语义槽栏,获取所述语义槽栏中的语义槽定义信息,将所述语义槽定义信息写入xbnf顶部,其中,所述语料表格至少包括所述语义槽栏和领域栏,所述语义槽栏中包括语义槽定义信息,所述领域栏包括所述领域栏对应的领域内的说法;
在步骤103中,基于所述写入xbnf顶部的语义槽定义信息,遍历所述领域内的说法,将所述说法与所述语义槽定义信息汇总后逐行写入所述xbnf,同时拼接语义领域信息形成汇总说法;
在步骤104中,检测所述汇总说法,排除所述汇总说法内存在的xbnf语法错误。
在本实施例中,对于步骤101,离线识别xbnf的编写和维护装置遍历预设的语料表格,判断遍历的当前栏是否是语义槽栏,例如,语义槽是预设一个关键字的集合,可以用来在用户说法中引用,能够增强说法的扩展能力。
然后,对于步骤102,若当前栏是语义槽栏,获取语义槽栏中的语义槽定义信息,将语义槽定义信息写入xbnf顶部,其中,语料表格至少包括所述语义槽栏和领域栏,所述语义槽栏中包括语义槽定义信息,所述领域栏包括所述领域栏对应的领域内的说法,例如,语义槽就是地址,取值是苏州、北京和上海等,那么说法可以是我要去苏州、我要去北京和我要去上海等,例如,当前领域是电话领域,语义槽是操作,语义槽值可以包括,拨打、拒接、接听等,说法可以包括我要打电话、帮我接听电话等,当不存在语义槽的时候,直接遍历领域内的意图和说法,例如,拨打电话意图和接听电话意图等,由于意图和说法多种多样不可能穷举,在此不再赘述。
之后,对于步骤103,离线识别xbnf的编写和维护装置基于写入xbnf顶部的语义槽定义信息,遍历所述领域内的说法,将说法与语义槽定义信息汇总后逐行写入所述xbnf,同时拼接语义领域信息形成汇总说法。
最后,对于步骤104,离线识别xbnf的编写和维护装置检测所述汇总说法,排除所述汇总说法内存在的xbnf语法错误,例如,变量是否缺少定义、是否分号结束或是否包含非法字符等多种方法检测排除汇总说法内存在的xbnf语法错误。
在本实施例所述的方案中,通过遍历预设的语料表格,自动生成的xbnf语法文件,从而可以实现降低开发者二次编辑的xbnf语法导致的错误概率。
请参考图2,其示出了本发明一实施例提供的另一种离线识别xbnf的编写和维护方法的流程图,该流程图主要是针对步骤101中在所述“遍历预设的语料表格”的方法之前进一步限定的步骤的流程图。
如图2所示,在步骤201中,根据开发者整理的所述各领域和所述各领域的说法形成初始表格,判断所述初始表格是否存在遗漏或者异常;
在步骤202中,若异常,修改所述初始表格内的异常语料说法,将所述初始表格输出为语料表格。
在本实施例中,对于步骤201,离线识别xbnf的编写和维护装置根据开发者整理的各领域和各领域的说法形成初始表格,判断初始表格是否存在遗漏或者异常,例如,开发者整理需求的各领域和各领域的说法按照约定格式输出表格,并检查表格中是否存在遗漏或异常。
对于步骤202,若异常,修改初始表格内的异常语料说法,将初始表格输出为语料表格
在本实施例所述的方案中,通过开发者整理需求的各领域和各领域的说法按照约定格式输出表格,从而可以实现提升语料说法的可维护性和降低复杂性。
在上述实施例所述的方法中,在所述判断遍历的当前栏是否是语义槽栏之后,还包括:
若遍历的当前栏不是语义槽栏,获取遍历的当前领域栏中的说法,将所述说法与语义槽定义信息汇总并同时拼接语义领域信息逐行写入xbnf。
请参考图3,其示出了本发明一实施例提供的另一种离线识别xbnf的编写和维护方法的流程图,该流程图主要是针对上述实施例中 “语料表格的每一个领域栏内还包括至少一个意图,每一个意图下还包括至少一个说法,所述基于所述写入xbnf顶部的语义槽定义信息,遍历所述领域内的说法,将所述说法与所述语义槽定义信息汇总后逐行写入所述xbnf,同时拼接语义领域信息”的方法进一步限定的步骤的流程图。
如图3所示,在步骤301中,判断遍历的当前说法是否是当前意图的最后一个说法;
在步骤302中,若当前说法不是当前意图的最后一个说法,继续遍历所述当前意图中的说法并逐行写入xbnf;
在步骤303中,若当前说法是当前意图的最后一个说法,将所述当前意图的说法与所述说法中包含的语义槽定义信息进行汇总并同时拼接语义领域信息逐行写入所述xbnf,继续遍历当前领域栏中的下一个意图中的说法。
在本实施例中,对于步骤301,离线识别xbnf的编写和维护装置判断遍历的当前说法是否是当前意图的最后一个说法,例如,一个意图可以包含多种说法,例如,当前意图为拨打电话,说法可以包括:我要打电话、帮我打个电话、打电话给妈妈和我要拨打电话。
之后,对于步骤302,若当前说法不是当前意图的最后一个说法,继续遍历当前意图中的说法并逐行写入xbnf,例如,当前意图为拨打电话,遍历到说法“我要打电话”并判断这个说法不是最后一个说法,将继续遍历当前意图的其他说法,例如,“帮我打个电话”和“我要拨打电话”。
最后,对于步骤303,若当前说法是当前意图的最后一个说法,将当前意图的说法与说法中包含的语义槽定义信息进行汇总并同时拼接语义领域信息逐行写入xbnf,继续遍历当前领域栏中的下一个意图中的说法,例如,遍历完拨打电话意图的最后一个说法后将拨打电话意图的说法与说法中包含的语义槽定义信息汇总并拼接语义领域信息逐行写入xbnf,继续遍历电话领域内的下一个意图,例如,接听电话和挂断电话等意图的说法。
在本实施例所述的方案中,通过判断是当前意图的的最后一个说法后继续遍历下一个意图,从而可以实现遍历完当前领域的所有说法。
请参考图4,其示出了本发明一实施例提供的另一种离线识别xbnf的编写和维护方法的流程图,该流程图主要是针对上述实施例中的方法进一步限定的步骤的流程图。
如图4所示,在步骤401中,判断所述说法是否是当前领域栏的最后一个说法;
在步骤402中,若所述说法是当前领域栏的最后一个说法,判断所述说法是否是最后领域栏的最后一个说法;
在步骤403中,若所述说法不是所述最后领域栏的最后一个说法,继续遍历所述语料表格中的下一栏。
在本实施例中,对于步骤401,离线识别xbnf的编写和维护装置判断所述说法是否是当前领域栏的最后一个说法;之后,对于步骤402,若所述说法是当前领域栏的最后一个说法,判断所述说法是否是最后领域栏的最后一个说法;最后,对于步骤403,若所述说法不是所述最后领域栏的最后一个说法,继续遍历所述语料表格中的下一栏,例如,再一次的判断所述下一栏是语义槽栏还是领域栏,若所述下一栏是领域栏,读取领域栏中的说法继续遍历语料表格中的下一栏,判断下一栏是语义槽栏还是领域栏;若下一栏是领域栏,读取领域栏中的说法循环遍历语料表格中的说法,例如,一个领域包括多个意图,一个意图包含多个说法,判断遍历的说法是否是当前领域最后一个意图的最后一个说法。例如,当前领域是电话领域,当电话领域遍历完之后继续遍历下一个领域,直至最后一个领域,遍历意图与说法在上述实施例已详细说明,在此不再赘述。
在本实施例所述的方案中,通过判断是当前领域的的最后一个说法后继续遍历下一个意图,从而可以实现遍历完所有领域的所有说法。在一些可选的方案中,可以只有首栏或者第一个sheet是语义槽栏,那么后续可以不用判断下一栏是领域栏还是语义槽栏,而是直接跳转到读取领域栏内说法的步骤,本身请在此没有限制,在此不再赘述。
在上述实施例所述的方法中,在判断所述说法是否是当前领域栏的最后一个说法之后,所述方法还包括:若所述说法不是当前领域栏的最后一个说法,继续读取当前领域栏内的说法。
请参考图5,其示出了本发明一实施例提供的另一种离线识别xbnf的编写和维护方法的流程图,该流程图主要是针对上述实施例中 “检测所述汇总说法,排除所述汇总说法内存在的xbnf语法错误”的方法进一步限定的步骤的流程图。
如图5所示,在步骤501中,判断所述语义槽栏是否缺少定义信息;
在步骤502中,若所述语义槽栏中不缺少定义信息,判断所述语义槽定义信息是否分号结束;
在步骤503中,若否,将所述xbnf标注为异常;
在步骤504中,若是,判断所述语义槽定义信息是否包含非法字符;
在本实施例中,对于步骤501,在遍历完最后一个领域的最后一个说法之后,离线识别xbnf的编写和维护装置判断语义槽栏是否缺少定义信息。
然后,对于步骤502,若语义槽栏中不缺少定义信息,判断语义槽定义信息是否分号结束,例如,分号表示结束、等号表示定义等每一个符号都具有特定的表示。
之后,对于步骤503,若否,将所述xbnf标注为异常。
最后,对于步骤504,若是,判断语义槽定义信息是否包含非法字符。
在所述判断所述语义槽定义信息是否包含非法字符之后,所述方法还包括:
若所述语义槽定义信息中包含非法字符,将所述xbnf标注为异常;
若所述语义槽定义信息中不包含非法字符,将所述xbnf输出。
在本实施例所述的方案中,通过xbnf 自动检查机制,从而可以实现排除xbnf 语法错误。
需要说明的是,以上实施例中虽然采用了步骤101、步骤102等具有明确先后顺序的数字,限定了步骤的先后顺序,但是在实际的应用场景中,有些步骤是可以并列执行的,有些步骤的先后顺序也不受到以上数字的限定,本申请在此没有限制,在此不再赘述。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人在实现本发明的过程中发现这些相似技术的缺陷:
复杂性,xbnf 语法较复杂,非专业人员很难写出较优的 xbnf 来提升性能。
易错性,开发人员手动编写,容易出错。且无工具自检,纯靠开发人员肉眼检测,难排查。
维护性,新增删除说法,无类别区分,不方便维护。
开发人员手动编写对应的 xbnf 语法文件,易错难维护。
发明人在实现本发明的过程中发现为什么不容易想到原因:
语音离线识别技术,各家实现方式不一。本公司专有的xbnf文件采用ebnf(扩展巴科斯-瑙尔范式,Extend Backus-Naur form)语法作为基础语法,开发者通过编辑该文件用以限定识别范围同时规定输出的语义项格式。在此基础上,旨在提升和优化开发人员效率为前提而设计本专利。竞品公司人员,接触不到与此相关技术。
与产品人员约定以表格可视化维护说法,并设计表格规范样式,提升语料说法的可维护性和降低复杂性。
开发编写脚本直接解析产品需求输出的说法表格,自动生成 xbnf 语法文件,降低开发人员二次编辑 xbnf 语法导致错误概率。
本发明的技术创新点:
产品负责整理需求说法,按约定格式输出表格,并负责检查修正明显格式错误。
请参考图6a,其示出了本发明一实施例的离线识别xbnf的编写和维护的方案一具体实施例的离线识别xbnf的编写和维护的流程图。
开发编写解析脚本,首先遍历 slots(语义槽)定义信息,写入 xbnf 顶部。
遍历其他领域说法,逐行写入文件,并汇总说法,同时拼接语义领域信息。
最后增加xbnf 自动检查机制,排除xbnf 语法错误。
进一步参考图6b和图6c,其中,图6b示出了本发明一实施例的语料表格中语义槽栏的部分内容的截图示意图;图6c示出了本发明一实施例的语料表格中一个领域栏的部分内容的截图示意图。
其中,语料表格目前设计基于各领域模块划分说法。其中,第一个 sheet (参考图6b)为汇总的 slot 槽定义,其他子领域 sheet(参考图6c)会引用当中的 slot。还可以考虑以这模板形式,扩充其他语种、其他定制项目,本申请在此不再赘述。
## 语料表
### 组成
语料表由 2 种sheet 组成:
1. slot sheet:定义全局 slot 槽,默认放在表格的第一个 sheet 位置,方便后续脚本解析。
2. statement sheet:维护各个子领域的说法,可引用定义的 slot,sheet 名为各个领域名。
### slot sheet
1. 首行定义说法中引用的槽变量,以#xx# 格式定义。
2. 槽包含相似的说法和对应的语义信息,形如:(sun roof|sunroof|skylight)/car-part="sun_roof"/
### statement sheet
1. 前 2 行定义意图,按列新增。
2. 对应的意图列,按行新增对应的说法集,支持ebnf 的 pattern 语法。如:makea (call|phone call) to #phone number#
## 作用
1. 作为语料说法的可视化编辑入口,方便维护离线识别支持的说法集。
2. 方便后续快速对接其他项目定制说法,和不同语种的扩展等。
3. 作为自动化 xbnf 脚本的输入集,大量减少了开发手动编辑改动 xbnf 引起的人为错误概率。
虽然发明人目前研究的方案是以语料表格形式展示,修改,后续也完全可以基于此,优化成可视化的网页编辑语料说法,本申请在此没有限制。
发明人在实现本发明的过程中形成的beta版:
在实现期间,有个xbnf 模板过渡方案,使用字符串占位符替换来实现。此方案缺点需要多编写一个xbnf.template 模板文件,维护不方便;优点是脚本实现较为简单。
发明人在实现本发明的过程中发现达到更深层次的效果:
对于车机端离线识别 xbnf 的编写和维护方案,当前申请以表格可视化设计极大提高了与产品说法需求对接的扩展性,自动化解析脚本更避免了开发维护xbnf的易错性。同时也方便后续做到动态加载替换xbnf,提升语音离线识别的识别率用户体验。
请参考图7,其示出了本发明一实施例提供的一种离线识别xbnf的编写和维护装置的框图。
如图7所示,离线识别xbnf的编写和维护装置700包括遍历判断模块710、获取写入模块720、遍历写入拼接模块730和检测排除模块740。
其中,遍历判断模块710,配置为遍历预设的语料表格,判断遍历的当前栏是否是语义槽栏;获取写入模块720,配置为若当前栏是语义槽栏,获取所述语义槽栏中的语义槽定义信息,将所述语义槽定义信息写入xbnf顶部,其中,所述语料表格至少包括所述语义槽栏和领域栏,所述语义槽栏中包括语义槽定义信息,所述领域栏包括所述领域栏对应的领域内的说法;遍历写入拼接模块730,配置为基于所述写入xbnf顶部的语义槽定义信息,遍历所述领域内的说法,将所述说法与所述语义槽定义信息汇总后逐行写入所述xbnf,同时拼接语义领域信息形成汇总说法;检测排除模块740,配置为检测所述汇总说法,排除所述汇总说法内存在的xbnf语法错误。
应当理解,图7中记载的诸模块与参考图1、图2、图3、图4和图5中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如遍历判断模块可以描述为遍历预设的语料表格,判断遍历的当前栏是否是语义槽栏的模块,另外,还可以通过硬件处理器来实现相关功能模块,例如遍历判断模块可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的离线识别xbnf的编写和维护方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
遍历预设的语料表格,判断遍历的当前栏是否是语义槽栏;
若当前栏是语义槽栏,获取所述语义槽栏中的语义槽定义信息,将所述语义槽定义信息写入xbnf顶部,其中,所述语料表格至少包括所述语义槽栏和领域栏,所述语义槽栏中包括语义槽定义信息,所述领域栏包括所述领域栏对应的领域内的说法;
基于所述写入xbnf顶部的语义槽定义信息,遍历所述领域内的说法,将所述说法与所述语义槽定义信息汇总后逐行写入所述xbnf,同时拼接语义领域信息形成汇总说法;
检测所述汇总说法,排除所述汇总说法内存在的xbnf语法错误。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据离线识别xbnf的编写和维护装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至离线识别xbnf的编写和维护装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项离线识别xbnf的编写和维护方法。
图8是本发明实施例提供的电子设备的结构示意图,如图8所示,该设备包括:一个或多个处理器810以及存储器820,图8中以一个处理器810为例。用于离线识别xbnf的编写和维护方法的设备还可以包括:输入装置830和输出装置840。处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。存储器820为上述的非易失性计算机可读存储介质。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于离线识别xbnf的编写和维护装置方法。输入装置830可接收输入的数字或字符信息,以及产生与用于离线识别xbnf的编写和维护装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于离线识别xbnf的编写和维护装置中,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
遍历预设的语料表格,判断遍历的当前栏是否是语义槽栏;
若当前栏是语义槽栏,获取所述语义槽栏中的语义槽定义信息,将所述语义槽定义信息写入xbnf顶部,其中,所述语料表格至少包括所述语义槽栏和领域栏,所述语义槽栏中包括语义槽定义信息,所述领域栏包括所述领域栏对应的领域内的说法;
基于所述写入xbnf顶部的语义槽定义信息,遍历所述领域内的说法,将所述说法与所述语义槽定义信息汇总后逐行写入所述xbnf,同时拼接语义领域信息形成汇总说法;
检测所述汇总说法,排除所述汇总说法内存在的xbnf语法错误。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种离线识别xbnf的编写和维护方法,包括:
遍历预设的语料表格,判断遍历的当前栏是否是语义槽栏;
若当前栏是语义槽栏,获取所述语义槽栏中的语义槽定义信息,将所述语义槽定义信息写入xbnf顶部,其中,所述语料表格至少包括所述语义槽栏和领域栏,所述语义槽栏中包括语义槽定义信息,所述领域栏包括所述领域栏对应的领域内的说法;
基于所述写入xbnf顶部的语义槽定义信息,遍历所述领域内的说法,将所述说法与所述语义槽定义信息汇总后逐行写入所述xbnf,同时拼接语义领域信息形成汇总说法;
检测所述汇总说法,排除所述汇总说法内存在的xbnf语法错误。
2.根据权利要求1所述的方法,其中,在所述遍历预设的语料表格之前,还包括:
根据开发者整理的所述各领域和所述各领域的说法形成初始表格,判断所述初始表格是否存在遗漏或者异常;
若异常,修改所述初始表格内的异常语料说法,将所述初始表格输出为语料表格。
3.根据权利要求1所述的方法,其中,在所述判断遍历的当前栏是否是语义槽栏之后,还包括:
若遍历的当前栏不是语义槽栏,获取遍历的当前领域栏中的说法,将所述说法与语义槽定义信息汇总并同时拼接语义领域信息逐行写入xbnf。
4.根据权利要求1所述的方法,其中,所述语料表格的每一个领域栏内还包括至少一个意图,每一个意图下还包括至少一个说法,所述基于所述写入xbnf顶部的语义槽定义信息,遍历所述领域内的说法,将所述说法与所述语义槽定义信息汇总后逐行写入所述xbnf,同时拼接语义领域信息包括:
判断遍历的当前说法是否是当前意图的最后一个说法;
若当前说法不是当前意图的最后一个说法,继续遍历所述当前意图中的说法并逐行写入xbnf;
若当前说法是当前意图的最后一个说法,将所述当前意图的说法与所述说法中包含的语义槽定义信息进行汇总并同时拼接语义领域信息逐行写入所述xbnf,继续遍历当前领域栏中的下一个意图中的说法。
5.根据权利要求4所述的方法,其中,所述方法还包括:
判断所述说法是否是当前领域栏的最后一个说法;
若所述说法是当前领域栏的最后一个说法,判断所述说法是否是最后领域栏的最后一个说法;
若所述说法不是所述最后领域栏的最后一个说法,继续遍历所述语料表格中的下一栏。
6.根据权利要求5所述的方法,其中,在判断所述说法是否是当前领域栏的最后一个说法之后,所述方法还包括:
若所述说法不是当前领域栏的最后一个说法,继续读取当前领域栏内的说法。
7.根据权利要求1所述的方法,其中,所述检测所述汇总说法,排除所述汇总说法内存在的xbnf语法错误,包括:
判断所述语义槽栏是否缺少定义信息;
若所述语义槽栏中不缺少定义信息,判断所述语义槽定义信息是否分号结束;
若否,将所述xbnf标注为异常;
若是,判断所述语义槽定义信息是否包含非法字符;
在所述判断所述语义槽定义信息是否包含非法字符之后,所述方法还包括:
若所述语义槽定义信息中包含非法字符,将所述xbnf标注为异常;
若所述语义槽定义信息中不包含非法字符,将所述xbnf输出。
8.一种离线识别xbnf的编写和维护装置,包括:
遍历判断模块,配置为遍历预设的语料表格,判断遍历的当前栏是否是语义槽栏;
获取写入模块,配置为若当前栏是语义槽栏,获取所述语义槽栏中的语义槽定义信息,将所述语义槽定义信息写入xbnf顶部,其中,所述语料表格至少包括所述语义槽栏和领域栏,所述语义槽栏中包括语义槽定义信息,所述领域栏包括所述领域栏对应的领域内的说法;
遍历写入拼接模块,配置为基于所述写入xbnf顶部的语义槽定义信息,遍历所述领域内的说法,将所述说法与所述语义槽定义信息汇总后逐行写入所述xbnf,同时拼接语义领域信息形成汇总说法;
检测排除模块,配置为检测所述汇总说法,排除所述汇总说法内存在的xbnf语法错误。
9.一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行权利要求1至7中任一项所述方法的步骤。
10.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述方法的步骤。
CN202011237669.4A 2020-11-09 2020-11-09 离线识别xbnf的编写和维护方法和装置 Active CN112102844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011237669.4A CN112102844B (zh) 2020-11-09 2020-11-09 离线识别xbnf的编写和维护方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011237669.4A CN112102844B (zh) 2020-11-09 2020-11-09 离线识别xbnf的编写和维护方法和装置

Publications (2)

Publication Number Publication Date
CN112102844A CN112102844A (zh) 2020-12-18
CN112102844B true CN112102844B (zh) 2021-02-05

Family

ID=73785199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011237669.4A Active CN112102844B (zh) 2020-11-09 2020-11-09 离线识别xbnf的编写和维护方法和装置

Country Status (1)

Country Link
CN (1) CN112102844B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001023997A1 (en) * 1999-09-30 2001-04-05 Curl Corporation Units system and method with underdefined quantities
WO2002039647A3 (en) * 2000-11-10 2002-08-15 Bea Systems Inc A multi-language execution method
CN109800310A (zh) * 2018-12-03 2019-05-24 国网浙江省电力有限公司杭州供电公司 一种基于结构化表达的电力运维文本分析方法
CN110046346A (zh) * 2019-03-18 2019-07-23 广东小天才科技有限公司 一种语料意图监控的方法和装置、终端设备
US10409820B2 (en) * 2017-09-19 2019-09-10 Adobe Inc. Semantic mapping of form fields
EP3557502A1 (en) * 2018-04-20 2019-10-23 Facebook, Inc. Aggregating semantic information for improved understanding of users
CN110377908A (zh) * 2019-07-19 2019-10-25 科大讯飞股份有限公司 语义理解方法、装置、设备及可读存储介质
CN110674253A (zh) * 2019-09-23 2020-01-10 出门问问信息科技有限公司 一种语义处理方法及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001023997A1 (en) * 1999-09-30 2001-04-05 Curl Corporation Units system and method with underdefined quantities
WO2002039647A3 (en) * 2000-11-10 2002-08-15 Bea Systems Inc A multi-language execution method
US10409820B2 (en) * 2017-09-19 2019-09-10 Adobe Inc. Semantic mapping of form fields
EP3557502A1 (en) * 2018-04-20 2019-10-23 Facebook, Inc. Aggregating semantic information for improved understanding of users
CN109800310A (zh) * 2018-12-03 2019-05-24 国网浙江省电力有限公司杭州供电公司 一种基于结构化表达的电力运维文本分析方法
CN110046346A (zh) * 2019-03-18 2019-07-23 广东小天才科技有限公司 一种语料意图监控的方法和装置、终端设备
CN110377908A (zh) * 2019-07-19 2019-10-25 科大讯飞股份有限公司 语义理解方法、装置、设备及可读存储介质
CN110674253A (zh) * 2019-09-23 2020-01-10 出门问问信息科技有限公司 一种语义处理方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
端到端对话系统意图语义槽联合识别研究综述;王堃 等;《计算机工程与应用》;20200731(第14期);第14-25页 *

Also Published As

Publication number Publication date
CN112102844A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN110164435A (zh) 语音识别方法、装置、设备及计算机可读存储介质
US9454525B2 (en) Information extraction in a natural language understanding system
CN107798123B (zh) 知识库及其建立、修改、智能问答方法、装置及设备
CN111027291B (zh) 文本中标点符号添加、模型训练方法、装置及电子设备
CN106599317A (zh) 问答系统的测试数据处理方法、装置及终端
CN112328489B (zh) 测试用例生成方法、装置、终端设备和存储介质
CN112286485B (zh) 通过语音控制应用的方法、装置、电子设备与存储介质
CN110399306B (zh) 软件模块自动化测试方法及装置
CN115328756A (zh) 一种测试用例生成方法、装置及设备
CN109637536B (zh) 一种自动化识别语义准确性的方法及装置
KR20210106372A (ko) 새로운 카테고리 라벨의 마이닝 방법 및 장치, 전자 기기 및 컴퓨터 판독 가능 매체 및 컴퓨터 프로그램 제품
CN111553138A (zh) 用于规范内容结构文档的辅助写作方法及装置
CN110826301B (zh) 标点符号添加方法、系统、移动终端及存储介质
CN112860264B (zh) 一种抽象语法树重构方法及装置
CN112102844B (zh) 离线识别xbnf的编写和维护方法和装置
CN112270197A (zh) 一种基于文字段落的动画草稿生成方法与装置
CN115577363A (zh) 恶意代码反序列化利用链的检测方法及装置
CN112002325B (zh) 多语种语音交互方法和装置
US10853559B2 (en) Symmetric text replacement
Liu Make Python Talk: Build Apps with Voice Control and Speech Recognition
CN112560431A (zh) 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品
CN111797636B (zh) 离线语义解析方法及系统
KR20150027426A (ko) 애플리케이션 자동검증 시스템 및 방법
CN111968616A (zh) 一种语音合成模型的训练方法、装置、电子设备和存储介质
CN117171052B (zh) 一种基于xml语言的脚本测试方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Ltd.