CN107704450A - 自然语言识别设备以及自然语言识别方法 - Google Patents

自然语言识别设备以及自然语言识别方法 Download PDF

Info

Publication number
CN107704450A
CN107704450A CN201710951693.6A CN201710951693A CN107704450A CN 107704450 A CN107704450 A CN 107704450A CN 201710951693 A CN201710951693 A CN 201710951693A CN 107704450 A CN107704450 A CN 107704450A
Authority
CN
China
Prior art keywords
data
word string
natural language
string data
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710951693.6A
Other languages
English (en)
Other versions
CN107704450B (zh
Inventor
张国峰
郭晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Via Technologies Inc
Original Assignee
Via Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Via Technologies Inc filed Critical Via Technologies Inc
Priority to CN201710951693.6A priority Critical patent/CN107704450B/zh
Priority to TW107100267A priority patent/TWI652668B/zh
Priority to US15/867,747 priority patent/US10635859B2/en
Publication of CN107704450A publication Critical patent/CN107704450A/zh
Application granted granted Critical
Publication of CN107704450B publication Critical patent/CN107704450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2207/00Indexing scheme relating to methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F2207/02Indexing scheme relating to groups G06F7/02 - G06F7/026
    • G06F2207/025String search, i.e. pattern matching, e.g. find identical word or best match in a string

Abstract

本申请提出一种自然语言识别设备,包括输入装置、处理装置以及存储装置。所述输入装置用以提供自然语言数据。所述存储装置用以存储多个程序模块。所述多个程序模块包括语法分析模块。所述处理装置执行所述语法分析模块,以通过形式语法模型来分析所述自然语言数据,并且产生多个字串数据。当所述处理装置判断所述多个字串数据的至少其中一个符合预设的有效语法条件时,所述处理装置判断所述字串数据的至少其中一个为意图数据,并且所述处理装置依据所述意图数据输出对应的回应信号。另外,一种自然语言识别方法也被提出。

Description

自然语言识别设备以及自然语言识别方法
技术领域
本申请是有关于一种自然语言(Natural language)识别技术,且特别是有关于应用一种乔姆斯基(Noam Chomsky)形式语法(formal grammar)模型扩展的自然语言识别设备以及自然语言识别方法。
背景技术
在自然语言(Natural language)识别的技术领域中,通常会使用语法模型来解析使用者提供的自然语言数据,以获取自然语言中的句子是否存在意图或者关键信息。然而,一般的自然语言识别作法是将自然语言数据利用形式语法(formal grammar)解析并且经由语法分析后,必须再经由繁琐的词汇分析才能明确获知句子的意图或者关键信息。也就是说,一般的自然语言识别设备必须要通过大量的数据处理运算以及存储大量的分析逻辑模块,才可有效进行自然语言识别。因此,如何提出可简化词汇分析的过程,并且可准确的进行自然语言识别,进而提高自然语言识别设备的性能,是目前重要的课题之一。
发明内容
本申请提供一种自然语言识别设备以及自然语言识别方法,可有效率地对自然语言数据的进行分析,以取得多个字串数据,并且准确判断所述多个字串数据当中是否具有符合预设的有效语法条件的意图数据。
本申请的自然语言识别设备包括输入装置、存储装置以及处理装置。所述输入装置用以提供自然语言数据。所述存储装置用以存储多个程序模块。所述多个程序模块包括语法分析模块。所述处理装置耦接所述输入装置以及所述存储装置。所述处理装置用以接收所述自然语言数据,并且执行所述多个程序模块。所述处理装置执行所述语法分析模块,以通过形式语法模型来分析所述自然语言数据,并且产生多个字串数据。当所述处理装置判断所述多个字串数据的至少其中一个符合预设的有效语法条件时,所述处理装置判断所述字串数据的至少其中一个为意图数据。所述处理装置依据所述意图数据输出对应的回应信号。
在本申请的实施例中,上述的所述形式语法模型包括变量符号、终结符号、语法规则、起始符号以及修饰符号。所述处理装置经由执行所述语法分析模块,以基于所述变量符号、所述终结符号、所述语法规则、所述起始符号以及所述修饰符号来产生所述多个字串数据。
在本申请的实施例中,上述的所述多个模块还包括语意分析模块。所述处理装置执行所述语意分析模块以分析所述多个字串数据。所述语意分析模块将符合所述修饰符号的描述的所述多个字串数据的至少其中一个判断为所述意图数据。
在本申请的实施例中,上述的所述修饰符号为全局修饰符号。当所述处理装置判断所述多个字串数据的至少其中一个符合所述修饰符号的描述时,所述处理装置判断所述字串数据的至少其中一个为所述意图数据。
在本申请的实施例中,上述的所述修饰符号为局部修饰符号。当所述处理装置判断基于变量符号所产生的所述多个字串数据的一部分的至少其中一个符合所述修饰符号的描述时,所述处理装置判断所述多个字串数据的一部分的至少其中一个为所述意图数据。
在本申请的实施例中,上述的所述意图数据包括对应于所述变量符号所产生的所述多个字串数据的一部分的至少其中一个的添加意图数据。
在本申请的实施例中,上述的所述形式语法模型还包括复用规则。所述复用规则用以套设所述语法规则,以替换所述语法规则当中的变量。
本申请的自然语言识别方法适用于自然语言识别设备。所述自然语言识别设备包括输入装置以及存储装置,并且所述存储装置存储多个模块。所述自然语言识别方法包括以下步骤:由所述输入装置接收自然语言数据,并且执行所述多个模块;经由执行语法分析模块,以通过形式语法模型来分析所述自然语言数据,并且产生多个字串数据;以及当所述多个字串数据的至少其中一个符合预设的有效语法条件时,判断所述字串数据的至少其中一个为意图数据,并且依据所述意图数据输出对应的回应信号。
在本申请的实施例中,上述的所述形式语法模型包括变量符号、终结符号、语法规则、起始符号以及修饰符号。经由执行所述语法分析模块,以通过所述形式语法模型来分析所述自然语言数据,并且产生所述多个字串数据的步骤包括:经由执行所述语法分析模块,以基于所述变量符号、所述终结符号、所述语法规则、所述起始符号以及所述修饰符号来产生所述多个字串数据。
在本申请的实施例中,上述的当所述多个字串数据的至少其中一个符合预设的有效语法条件时,判断所述字串数据的至少其中一个为所述意图数据的步骤包括:经由执行语意分析模块以分析所述多个字串数据,其中所述语意分析模块将符合所述修饰符号的描述的所述多个字串数据的至少其中一个判断为所述意图数据。
在本申请的实施例中,上述的所述修饰符号为全局修饰符号。当所述多个字串数据的至少其中一个符合预设的有效语法条件时,判断所述字串数据的至少其中一个为所述意图数据的步骤包括:经由执行语意分析模块以分析所述多个字串数据,其中所述语意分析模块将符合所述修饰符号的描述的所述多个字串数据的至少其中一个判断为所述意图数据。
在本申请的实施例中,上述的所述修饰符号为全局修饰符号。当所述多个字串数据的至少其中一个符合预设的有效语法条件时,判断所述字串数据的至少其中一个为所述意图数据的步骤包括:当所述多个字串数据的至少其中一个符合所述修饰符号的描述时,判断所述字串数据的至少其中一个为所述意图数据。
在本申请的实施例中,上述的所述修饰符号为局部修饰符号。当所述多个字串数据的至少其中一个符合预设的有效语法条件时,判断所述字串数据的至少其中一个为所述意图数据的步骤包括:当判断基于变量符号所产生的所述多个字串数据的一部分的至少其中一个符合所述修饰符号的描述时,判断所述多个字串数据的一部分的至少其中一个为所述意图数据。
在本申请的实施例中,上述的所述意图数据包括对应于所述变量符号所产生的所述多个字串数据的一部分的至少其中一个的添加意图数据。
在本申请的实施例中,上述的所述形式语法模型还包括复用规则。经由执行语法分析模块,以通过形式语法模型来分析所述自然语言数据,并且产生多个字串数据的步骤包括:利用所述复用规则套设所述语法规则,以替换所述语法规则当中的变量。
基于上述,本申请的自然语言识别设备以及自然语言识别方法可有效率地通过形式语法模型来分析使用者提供的自然语言数据,并且可准确地判断多个字串数据当中是否有符合预设的有效语法条件的意图数据,以输出相对应的回应信号。
为让本申请的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图示作详细说明如下。
附图说明
图1示出本申请实施例的自然语言识别设备的示意图。
图2示出本申请实施例的自然语言处理流程的示意图。
图3示出本申请实施例的分析自然语言数据的示意图。
图4示出本申请实施例的自然语言识别方法的流程图。
具体实施方式
为了使本申请的内容可以被更容易地理解,以下特别举实施例作为本申请确实能够据以实施的示例。另外,凡可能之处,在图示及实施方式中使用相同标号的元件/构件/步骤,是代表相同或类似部件。
图1示出本申请实施例的自然语言识别设备的示意图,参考图1。在本实施例中,自然语言识别设备100包括处理装置110、输入装置120以及存储装置130。处理装置110耦接输入装置120以及存储装置130。存储装置130包括语法分析模块131以及语意分析模块132。在本实施例中,输入装置120可提供自然语言数据ND至处理装置110。并且,处理装置110通过执行存储在存储装置130中的语法分析模块131以及语意分析模块132来分析自然语言数据ND。在本实施例中,处理装置110可经由语法分析模块131以及语意分析模块132来分析自然语言数据ND,以判断自然语言数据ND的分析结果当中是否包括符合有效语法条件的意图信息。也就是说,若经由语意分析模块132解析后,语意分析模块132解析出有效的语法信息可对应于特定的应用功能,则处理装置110判断自然语言数据ND当中具有此意图信息,并且输出相对应的回应信号RS。
在本实施例中,输入装置120例如是键盘(Keyboard)、语音接收器(Voicereceiver)或麦克风(Microphone)等,并且输入装置120可用以接收使用者提供的语音或输入操作等,但本申请并不加以限制。在本实施例中,输入装置120可依据上述各型式的输入来提供自然语言数据ND,其中自然语言数据ND属于一种文字数据,其内容可例如是句子或词组等。然而,在实施例中,输入装置120也可耦接外部电子装置,以接收使用者提供的自然语言数据ND,并且提供此自然语言数据ND至处理装置110。
在本实施例中,处理装置110例如是中央处理单元(Central Processing Unit,CPU)、系统级芯片(System on Chip,SOC)或是其他可编程的一般用途或特殊用途的微处理器(Microprocessor)、数子信号处理器(Digital Signal Processor,DSP)、可编程控制器、专用集成电路(Application Specific Integrated Circuits,ASIC)、可编程逻辑器件(Programmable Logic Device,PLD)、其他类似处理装置或这些装置的组合。值得注意的是,在本实施例中,处理装置110包括编译器(Complier),其中编译器可用以执行本申请各实施所述的各种自然语言处理。
在本实施例中,存储装置130例如是动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)、闪存(Flash memory)或非易失性随机存取存储器(Non-VolatileRandom Access Memory,NVRAM)等。在本实施例中,存储装置130用以存储本申请各实施例所述的数据以及程序模块,并且处理装置110可读取这些数据以及程序模块以执行它,以使本申请的自然语言识别设备100可实现各实施例所述的自然语言识别操作。
图2示出本申请实施例的自然语言处理流程的示意图。参考图1以及图2,在本实施例中,处理装置110可读取存储在存储装置130当中的语法分析模块131以及语意分析模块132。具体而言,首先,处理装置110由输入装置120接收自然语言数据ND,并且经由语法分析模块131分析自然语言数据ND以通过形式语法(Formal grammar)模型来分析自然语言数据ND,并且产生多个字串数据SD。接着,处理装置110经由语意分析模块132分析这些字串数据SD,以分别判断这些字串数据是否符合预设的有效语法条件。在本实施例中,处理装置110可依据符合预设的有效语法条件的字串数据来产生对应的回应信号RS至应用程序133,以使应用程序133可执行相应的反馈操作。也就是说,在本实施例中,当这些多个字串数据的至少其中一个符合所述修饰符号的描述时,语意分析模块132将符合所述修饰符号的描述的字串数据判断为意图数据,并且处理装置110依据此意图数据输出相对应的回应信号RS至应用程序133。
图3示出本申请实施例的分析自然语言数据的示意图,参考图1以及图3。在本实施例中,处理装置110接收输入装置120提供的自然语言数据ND,并且执行存储于存储装置130中的语法分析模块131,以对自然语言数据ND进行语法分析。在本实施例中,形式语法模型131A属于一种乔姆斯基(Noam Chomsky)形式语法模型扩展,其中形式语法模型131A可由五个符号组成。这些符号包括变量符号(V)、终结符号(T)、语法规则(P)、起始符号(S)以及修饰符号(M),并且形式语法(G=(V,T,P,S,M))产生的语言是依据这些符号的规则所产生的多个字串数据SD_1、SD_2~SD_n的集合,其中n为大于0的正整数。也就是说,在本实施例中,处理装置110可经由执行语法分析模块131,以基于变量符号(V)、终结符号(T)、语法规则(P)、起始符号(S)以及修饰符号(M)来产生这些字串数据SD_1、SD_2~SD_n。
具体来说,自然语言数据ND经由形式语法模型131A的解析后,可产生的多个字串数据SD_1、SD_2~SD_n。这些字串数据SD_1、SD_2~SD_n可分别由变量符号(V)以及终结符号(T)所代表的字符构成,其中由修饰符号(M)修饰这些字符,并由起始符号(S)开始不断应用语法规则(P)的产生式规则来得到。然而,本申请并不限制形式语法模型131A的类型,其中形式语法模型131A的语法分类方式可例如是应用无限制语法(Unrestricted grammar)、上下文相关语法(Context sensitive grammar)、上下文无关语法(Context freegrammar)或正规语法(Regular grammar)等。
在本实施例中,修饰符号(M)可由中文字符或英文字符以或下划线(underscore)组成。若修饰符号(M)为英文字符,则必须以下划线或字母开头。在本实施例中,修饰符号(M)可为一种全局修饰符号(Global modifier)或一种局部修饰符号(Slot modifier)。在本实施例中,处理装置110可经由执行语意分析模块132,以判断这些字串数据SD_1、SD_2~SD_n,中是否具有符合修饰符号(M)描述的字串数据。并且,处理装置110将符合修饰符号(M)的描述的字串数据视为意图数据ID。
为了使本领域技术人员可进一步了解本申请所述的自然语言识别技术,以下提出关于修饰符号(M)属于全局修饰符号的两个示例实施例,并且套用图1以及图3来说明它。
在示例实施例中,处理装置110可设定修饰符号(M)为一种全局修饰符号,并且修饰符号(M)可定义为查询日期(querydate)。修饰符号(M)的定义符号为“@”,并且多个修饰符号(M)的连接符号为“&”。首先,使用者可经由输入装置120提供自然语言数据NLD如“查查今天的日期,查询今天的时间”,并且输入装置120将自然语言数据ND提供至处理装置110。接着,处理装置110可执行语法分析模块131,以通过形式语法模型131A来解析自然语言数据ND,以取得具有多个字串数据SD_1、SD_2~SD_n的形式语法(G)。
在此示例中,形式语法可为(G=({<句子>,<动词>,<时间名词>,<助动词>,<日期名词>},{日期,时间,今天,的,查,查一查,查查,查询},P,<句子>,G@=querydate)),其中P={<动词>:查|查询|查查|查一查,<日期时间>:日期|时间,<时间名词>:今天,<助动词>:的,<句子>:<动词><时间名词><助动词><日期名词>}。
再接着,处理装置110执行语意分析模块132来分析基于上述形式语法(G)产生的字串数据SD_1、SD_2~SD_n。在此示例中,处理装置110可判断形式语法(G)产生的字串数据SD_1、SD_2~SD_n是否包含有符合修饰符号(G@=querydate)以及时间名词的字串数据。也就是说,若处理装置110判断字串数据有符合查询日期描述“查查、查询”以及时间名词“今天”的字串数据,则处理装置110直接定义这些字串数据为意图数据ID。据此,处理装置110可依据意图数据ID来输出对应的回应信号RS。
附带一提的是,在此示例中,处理装置110可例如是输出对应的回应信号RS至特定的应用程序,以使特定的应用程序可依据回应信号RS执行对应的操作。或者,处理装置110也可例如是输出对应的回应信号RS至自然语言搜寻引擎,以通过声音播放装置来回应上述使用者问题,但本申请并不限于此。
在另一示例实施例中,处理装置110可设定修饰符号(M)为一种全局修饰符号,并且修饰符号(M)可定义为查询日期(querydate)。修饰符号(M)的定义符号为“@”,并且多个修饰符号(M)的连接符号为“&”。首先,使用者可经由输入装置120提供自然语言数据ND如“今天几号,今天多少号,今天什么日子”,并且输入装置120将自然语言数据ND提供至处理装置110。接着,处理装置110可执行语法分析模块131,以通过形式语法模型131A来解析自然语言数据ND,以取得具有多个字串数据SD_1、SD_2~SD_n的形式语法(G)。
在此示例中,形式语法可为(G=({<时间名词>,<名词1>,<名词2>,<短语1>,<短语2>,<句子>},{今天,几,多少,号,什么日子},P,<句子>,G@=querydate)),其中P={<时间名词>:今天,<名词1>:几|多少,<名词2>:号,<短语1>:什么日子,<短语2>:<名词1><名词2>,<句子>:<时间名词><短语1>,<句子>:<时间名词><短语2>}。
再接着,处理装置110执行语意分析模块132来分析基于上述形式语法(G)产生的字串数据SD_1、SD_2~SD_n。在此示例中,处理装置110可判断形式语法(G)产生的字串数据SD_1、SD_2~SD_n是否包含有符合修饰符号(G@=querydate)以及时间名词的字串数据。也就是说,若处理装置110判断字串数据有符合查询日期描述“几号”、“多少号”、“什么日子”以及时间名词“今天”的字串数据,则处理装置110直接定义这些字串数据为意图数据ID。据此,处理装置110可依据意图数据ID来输出对应的回应信号RS。
为了使本领域技术人员可进一步了解本申请所述的自然语言识别技术,以下提出关于修饰符号(M)为属于局部修饰符号的两个示例实施例,并且套用图1以及图3来说明它。
在示例实施例中,处理装置110可设定修饰符号(M)为一种局部修饰符号,其中修饰符号(M)可用对语法中的变量进行修饰。具体而言,由于在同一个语法中对于不同变量可能分别对应不同的操作意图,因此本实施例的处理装置110经由修饰符号(M)修饰语法中的变量。首先,使用者可经由输入装置120提供自然语言数据ND如“打开电视,打开空调,开一下净化器”,并且输入装置120将自然语言数据ND提供至处理装置110。接着,处理装置110可执行语法分析模块131,以通过形式语法模型131A来解析自然语言数据NLD,以取得具有多个字串数据SD_1、SD_2~SD_n的形式语法(G)。
在此示例中,形式语法可为(G=({<动词>,<名词1>,<名词2>,<名词3>},{打开,开开,开一下},P,<句子>,{<名词1>@=open,<名词2>G@=open&lowlevel,<名词3>@=open&highlevel)),其中P={<动词>:打开|开一下|开开,<名词1>:电视|电视机,<名词2>:空调,<名词3>:净化器,<句子>:<动词><名词1>,<句子>:<动词><名词2>,<句子>:<动词><名词3>}。
再接着,处理装置110执行语意分析模块132来分析基于上述形式语法(G)产生的字串数据SD_1、SD_2~SD_n。在此示例中,处理装置110可获取形式语法(G)产生的字串“电视”的修饰符号为“open”,因此处理装置110可输出对应的回应信号RS至外部电子装置或电视,以开启电视。并且,处理装置110可获取形式语法(G)产生的字串“空调”的修饰符号为“open”以及“lowlevel”两个,则处理装置110可输出对应的回应信号RS至外部电子装置或空调,以开启空调并且调至最低档位。并且,处理装置110可获取形式语法(G)产生的字串“净化器”的修饰符号为“open”以及“highlevel”两个,则处理装置110可输出对应的回应信号RS至外部电子装置或净化器,以开启净化器并且调至最高档位。
也就是说,在此示例中,处理装置110可以只判断基于变量符号(V)所产生的多个字串数据SD_1、SD_2~SD_n的部分,以将符合修饰符号(M)描述的基于变量符号(V)所产生的字串数据定义为意图数据ID。并且,处理装置110可在意图数据ID中增加添加意图数据,并且此添加意图可对应于变量符号(V)所产生的具有特定意涵的字串数据。换句话说,修饰符号可(M)依据处理装置110或由使用者设定的功能来对应于形式语法(G)所产生的不同句子添加意图描述。
在另一示例实施例中,使用者可经由输入装置120提供自然语言数据ND如“打开电视,打开空调,开一下净化器”,并且输入装置120将自然语言数据NLD提供至处理装置110。接着,处理装置110可执行语法分析模块131,以通过形式语法模型131A来解析自然语言数据ND,以取得具有多个字串数据SD_1、SD_2~SD_n的形式语法(G)。
在此示例中,形式语法可为(G=({<动词>,<名词1>,<名词2>,<名词3>},{打开,开开,开一下},P,<句子>,{<名词1>@=open,<名词2>G@=open,<名词3>@=open)),其中P={<动词>:打开|开一下|开开,<名词1>:电视|电视机,<名词2>:空调,<名词3>:净化器,<句子>:<动词><名词1>,<句子>:<动词><名词2>,<句子>:<动词><名词3>}。
再接着,处理装置110执行语意分析模块132来分析基于上述形式语法(G)产生的字串数据SD_1、SD_2~SD_n。在此示例中,处理装置110可获取形式语法(G)产生的字串“电视”、“空调”、“净化器”的修饰符号皆为“open”,因此处理装置110可输出对应的回应信号RS至外部电子装置或电视、空调以及净化器,以开启电视、空调以及净化器。
也就是说,在此示例中,处理装置110可以只判断基于变量符号(V)所产生的多个字串数据SD_1、SD_2~SD_n的部分,以将符合修饰符号(M)描述的基于变量符号(V)所产生的字串数据定义为意图数据ID。然而,在此示例中,由于处理装置110未在意图数据ID中增加添加意图数据,因此处理装置110仅判断在自然语言数据ND中是否具有上述修饰符号为“open”的意图数据。也就是说,此示例也可应用上述全局修饰符号的方式来判断意图数据。
值得注意的是,在上述关于全局修饰符号以及局部修饰符号的各示例实施例中,自然语言识别设备100可进一步经由修饰符号(M)的复用方法来提高语法编写和维护的效率。详细而言,若自然语言识别设备100需对于两种不同变量进行判断,则语法规则(P)可能须分别定义对应于此两种不同变量的规则,以使语意分析模块132可分析自然语言数据ND当中是否符合相关于此两种不同变量的预设的有效语法条件。然而,在实施例中,上述的形式语法模型131A可进一步包括复用规则,其中复用规则可用以套设于语法规则(P),以替换所述语法规则当中的变量(V)。
具体而言,假设语法规则(P)包括一规则(<generalcontrol>:打开<V1@open>|关闭<V2@close>),其中V1表示一个变量,用以匹配通用的设备名称。规则<p1>例如是用于控制通用设备的语法,例如是“打开灯”,“打开空调”,“关闭电视”。然而,在此示例中,若希望增加另一个变量V2可适用于相同的规则<generalcontrol>,则可采取复用规则的方式来定义一个语法规则为(<p1>:打开<@open>|关闭<@close>),并且定义<generalcontrol>:<p1:V1>,以及<controlcurtain>:<p1:V2>|拉开<V2@open>|拉上<V2@close>。也就是说,<generalcontrol>可例如用于“打开灯”、“打开空调”或“关闭电视”的语法,并且<controlcurtain>可例如用于控制窗帘的语法。因此,本实施例的语法规则(P)可包括通用的语法,也可包括特殊的语法,而无需重复定义多个语法规则,以有效避免语法规则的冗余。并且,此复用规则可适用于上述全局修饰符号以及局部修饰符号的各示例实施例。
更进一步而言,在上述的复用规则当中,若需修改通用的语法,则只须修该<p1>即可。举例而言,复用规则可例如是单个变量替换<p1:V>,其中p1为需要复用的语法规则,而V用于替换p1中的变量。再举例而言,复用规则也可例如是多个变量替换<p1:V1=V,V2=V,…>,其中p1为需要复用的语法规则,并且p1包括多个变量V1、V2…,而V用于替换p1中的变量。因此,本实施例的语法规则(P)可经由上述复用规则的设计,来提高语法编写和维护的效率。
图4示出本申请实施例的自然语言识别方法的流程图,参考图1、图3以及图4。本实施例的自然语言识别方法可至少适用于上述图1实施例的自然语言识别设备100。在步骤S410中,处理装置110由输入装置120接收自然语言数据ND,并且执行多个模块。在步骤S420中,处理装置110经由执行语法分析模块131,以通过形式语法模型131A来分析自然语言数据ND,并且产生多个字串数据SD_1、SD_2~SD_n。在步骤S430中,当处理装置110判断这些字串数据SD_1、SD_2~SD_n的至少其中一个符合预设的有效语法条件时,判断这些字串数据SD_1、SD_2~SD_n的至少其中一个为意图数据ID,并且依据意图数据ID输出对应的回应信号RS至应用程序。因此,本申请的自然语言识别方法可有效率且准确地的判断使用者提供的自然语言数据中是否具有意图数据,以使自然语言识别设备可正确地输出对应的回应信号。
另外,本实施例的自然语言识别设备100的相关实施细节以及相关装置特征可在上述图1至图3的实施例中,获致足够的教示、建议以及实施说明,在此不再赘述。
综上所述,本申请的自然语言识别设备以及自然语言识别方法可基于乔姆斯基形式语法模型扩展来解析自然语言数据,并且可准确地的判断自然语言数据的解析结果是否具有符合特定意图的信息内容,以相对应的输出回应信号。并且,本申请的自然语言识别设备还可进一步于意图数据中添加意图描述,以使自然语言识别设备可依据不同的应用程序功能来对应产生更多元的回应。此外,本申请的形式语法模型还可进一步包括复用规则,以经由将复用规则套设于语法规则的方式来有效提高形式语法模型的编写和维护的效率。
虽然本申请已经以实施例公开如上,然而其并非用以限定本申请,任何所属技术领域技术人员,在不脱离本申请的精神和范围内,应当可以作些许的更动与润饰,因此本申请的保护范围以所附的权利要求所限定的范围为准。
附图标记说明
100:自然语言识别设备
110:处理装置
120:输入装置
130:存储装置
131:语法分析模块
131A:形式语法模型
132:语意分析模块
133:应用程序
ID:意图数据
SD、SD_1、SD_2、SD_n:字串数据
ND:自然语言数据
RS:回应信号
S410、S420、S430:步骤

Claims (14)

1.一种自然语言识别设备,包括:
输入装置,用以提供自然语言数据;
存储装置,用以存储多个程序模块,其中所述多个程序模块包括语法分析模块;以及
处理装置,耦接所述输入装置以及所述存储装置,所述处理装置用以接收所述自然语言数据,并且执行所述多个程序模块,其中所述处理装置执行所述语法分析模块,以通过形式语法模型来分析所述自然语言数据,并且产生多个字串数据,
其中当所述处理装置判断所述多个字串数据的至少其中一个符合预设的有效语法条件时,所述处理装置判断所述字串数据的至少其中一个为意图数据,并且所述处理装置依据所述意图数据输出对应的回应信号。
2.如权利要求1所述的自然语言识别设备,其中所述形式语法模型包括变量符号、终结符号、语法规则、起始符号以及修饰符号,并且所述处理装置经由执行所述语法分析模块,以基于所述变量符号、所述终结符号、所述语法规则、所述起始符号以及所述修饰符号来产生所述多个字串数据。
3.如权利要求2所述的自然语言识别设备,其中所述多个模块还包括语意分析模块,并且所述处理装置执行所述语意分析模块以分析所述多个字串数据,其中所述语意分析模块将符合所述修饰符号的描述的所述多个字串数据的至少其中一个判断为所述意图数据。
4.如权利要求2所述的自然语言识别设备,其中所述修饰符号为全局修饰符号,并且当所述处理装置判断所述多个字串数据的至少其中一个符合所述修饰符号的描述时,所述处理装置判断所述字串数据的至少其中一个为所述意图数据。
5.如权利要求2所述的自然语言识别设备,其中所述修饰符号为局部修饰符号,并且当所述处理装置判断基于变量符号所产生的所述多个字串数据的一部分的至少其中一个符合所述修饰符号的描述时,所述处理装置判断所述多个字串数据的一部分的至少其中一个为所述意图数据。
6.如权利要求5所述的自然语言识别设备,其中所述意图数据包括对应于所述变量符号所产生的所述多个字串数据的一部分的至少其中一个的添加意图数据。
7.如权利要求2所述的自然语言识别设备,其中所述形式语法模型还包括复用规则,并且所述复用规则用以套设所述语法规则,以替换所述语法规则当中的变量。
8.一种自然语言识别方法,适用于自然语言识别设备,其中所述自然语言识别设备包括输入装置以及存储装置,并且所述存储装置存储多个模块,其中所述自然语言识别方法包括:
由所述输入装置接收自然语言数据,并且执行所述多个模块;
经由执行语法分析模块,以通过形式语法模型来分析所述自然语言数据,并且产生多个字串数据;以及
当所述多个字串数据的至少其中一个符合预设的有效语法条件时,判断所述字串数据的至少其中一个为意图数据,并且依据所述意图数据输出对应的回应信号。
9.如权利要求8所述的自然语言识别方法,其中所述形式语法模型包括变量符号、终结符号、语法规则、起始符号以及修饰符号,其中经由执行所述语法分析模块,以通过所述形式语法模型来分析所述自然语言数据,并且产生所述多个字串数据的步骤包括:
经由执行所述语法分析模块,以基于所述变量符号、所述终结符号、所述语法规则、所述起始符号以及所述修饰符号来产生所述多个字串数据。
10.如权利要求9所述的自然语言识别方法,其中当所述多个字串数据的至少其中一个符合预设的有效语法条件时,判断所述字串数据的至少其中一个为所述意图数据的步骤包括:
经由执行语意分析模块以分析所述多个字串数据,其中所述语意分析模块将符合所述修饰符号的描述的所述多个字串数据的至少其中一个判断为所述意图数据。
11.如权利要求9所述的自然语言识别方法,其中所述修饰符号为全局修饰符号,并且当所述多个字串数据的至少其中一个符合预设的有效语法条件时,判断所述字串数据的至少其中一个为所述意图数据的步骤包括:
当所述多个字串数据的至少其中一个符合所述修饰符号的描述时,判断所述字串数据的至少其中一个为所述意图数据。
12.如权利要求9所述的自然语言识别方法,其中所述修饰符号为局部修饰符号,并且当所述多个字串数据的至少其中一个符合预设的有效语法条件时,判断所述字串数据的至少其中一个为所述意图数据的步骤包括:
当判断基于变量符号所产生的所述多个字串数据的一部分的至少其中一个符合所述修饰符号的描述时,判断所述多个字串数据的一部分的至少其中一个为所述意图数据。
13.如权利要求12所述的自然语言识别方法,其中所述意图数据包括对应于所述变量符号所产生的所述多个字串数据的一部分的至少其中一个的添加意图数据。
14.如权利要求9所述的自然语言识别方法,其中所述形式语法模型还包括复用规则,并且经由执行语法分析模块,以通过形式语法模型来分析所述自然语言数据,并且产生多个字串数据的步骤包括:
利用所述复用规则套设所述语法规则,以替换所述语法规则当中的变量。
CN201710951693.6A 2017-10-13 2017-10-13 自然语言识别设备以及自然语言识别方法 Active CN107704450B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710951693.6A CN107704450B (zh) 2017-10-13 2017-10-13 自然语言识别设备以及自然语言识别方法
TW107100267A TWI652668B (zh) 2017-10-13 2018-01-04 自然語言辨識設備以及自然語言辨識方法
US15/867,747 US10635859B2 (en) 2017-10-13 2018-01-11 Natural language recognizing apparatus and natural language recognizing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710951693.6A CN107704450B (zh) 2017-10-13 2017-10-13 自然语言识别设备以及自然语言识别方法

Publications (2)

Publication Number Publication Date
CN107704450A true CN107704450A (zh) 2018-02-16
CN107704450B CN107704450B (zh) 2020-12-04

Family

ID=61183449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710951693.6A Active CN107704450B (zh) 2017-10-13 2017-10-13 自然语言识别设备以及自然语言识别方法

Country Status (3)

Country Link
US (1) US10635859B2 (zh)
CN (1) CN107704450B (zh)
TW (1) TWI652668B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002434A (zh) * 2018-05-31 2018-12-14 青岛理工大学 客服问答匹配方法、服务器及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11120224B2 (en) * 2018-09-14 2021-09-14 International Business Machines Corporation Efficient translating of social media posts
WO2020069048A1 (en) * 2018-09-25 2020-04-02 Archuleta Michelle Reinforcement learning approach to modify sentence reading grade level

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1455357A (zh) * 2003-05-23 2003-11-12 郑方 一种实现多路对话的人-机汉语口语对话系统的方法
US20080162471A1 (en) * 2005-01-24 2008-07-03 Bernard David E Multimodal natural language query system for processing and analyzing voice and proximity-based queries
CN103077165A (zh) * 2012-12-31 2013-05-01 威盛电子股份有限公司 自然语言对话方法及其系统
US20130211823A1 (en) * 2002-07-12 2013-08-15 Nuance Communications, Inc. Conceptual world representation natural language understanding system and method
CN104424216A (zh) * 2013-08-23 2015-03-18 佳能株式会社 用于意图挖掘的方法和设备
CN104679783A (zh) * 2013-11-29 2015-06-03 北京搜狗信息服务有限公司 一种网络搜索方法和装置

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6988063B2 (en) * 2002-02-12 2006-01-17 Sunflare Co., Ltd. System and method for accurate grammar analysis using a part-of-speech tagged (POST) parser and learners' model
US7013262B2 (en) * 2002-02-12 2006-03-14 Sunflare Co., Ltd System and method for accurate grammar analysis using a learners' model and part-of-speech tagged (POST) parser
US8180627B2 (en) * 2008-07-02 2012-05-15 Siemens Aktiengesellschaft Method and an apparatus for clustering process models
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
US9122772B2 (en) * 2009-05-18 2015-09-01 Siemens Aktiengesellschaft Method for analyzing message archives and corresponding computer program
SG188531A1 (en) * 2010-09-24 2013-04-30 Univ Singapore Methods and systems for automated text correction
KR101776673B1 (ko) * 2011-01-11 2017-09-11 삼성전자주식회사 자연어 처리용 문법 자동 생성 장치 및 방법
US9223859B2 (en) * 2011-05-11 2015-12-29 Here Global B.V. Method and apparatus for summarizing communications
EP2803040A1 (en) * 2012-01-10 2014-11-19 Thomson Licensing Method for rendering an image synthesis and corresponding device
US9105068B2 (en) * 2012-11-12 2015-08-11 Facebook, Inc. Grammar model for structured search queries
US9443005B2 (en) * 2012-12-14 2016-09-13 Instaknow.Com, Inc. Systems and methods for natural language processing
US9123335B2 (en) * 2013-02-20 2015-09-01 Jinni Media Limited System apparatus circuit method and associated computer executable code for natural language understanding and semantic content discovery
CN103294666B (zh) * 2013-05-28 2017-03-01 百度在线网络技术(北京)有限公司 语法编译方法、语义解析方法以及对应装置
US9665566B2 (en) * 2014-02-28 2017-05-30 Educational Testing Service Computer-implemented systems and methods for measuring discourse coherence
US9548066B2 (en) * 2014-08-11 2017-01-17 Amazon Technologies, Inc. Voice application architecture
US9940370B2 (en) * 2015-01-02 2018-04-10 International Business Machines Corporation Corpus augmentation system
US10628636B2 (en) * 2015-04-24 2020-04-21 Facebook, Inc. Live-conversation modules on online social networks
US9922138B2 (en) * 2015-05-27 2018-03-20 Google Llc Dynamically updatable offline grammar model for resource-constrained offline device
US9740678B2 (en) * 2015-06-25 2017-08-22 Intel Corporation Method and system of automatic speech recognition with dynamic vocabularies
US20180032930A1 (en) * 2015-10-07 2018-02-01 0934781 B.C. Ltd System and method to Generate Queries for a Business Database
US10216850B2 (en) * 2016-02-03 2019-02-26 Facebook, Inc. Sentiment-modules on online social networks
US10452671B2 (en) * 2016-04-26 2019-10-22 Facebook, Inc. Recommendations from comments on online social networks
US20180052885A1 (en) * 2016-08-16 2018-02-22 Ebay Inc. Generating next user prompts in an intelligent online personal assistant multi-turn dialog
US20180068031A1 (en) * 2016-08-16 2018-03-08 Ebay Inc. Enhancing user queries using implicit indicators
US20180052842A1 (en) * 2016-08-16 2018-02-22 Ebay Inc. Intelligent online personal assistant with natural language understanding
US10185763B2 (en) * 2016-11-30 2019-01-22 Facebook, Inc. Syntactic models for parsing search queries on online social networks
US10224031B2 (en) * 2016-12-30 2019-03-05 Google Llc Generating and transmitting invocation request to appropriate third-party agent
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
US10366690B1 (en) * 2017-05-15 2019-07-30 Amazon Technologies, Inc. Speech recognition entity resolution
US10446147B1 (en) * 2017-06-27 2019-10-15 Amazon Technologies, Inc. Contextual voice user interface
US10977319B2 (en) * 2017-07-10 2021-04-13 Ebay Inc. Expandable service architecture with configurable dialogue manager
US10474443B2 (en) * 2017-07-11 2019-11-12 Bank Of America Corporation Code lineage tool
US10482904B1 (en) * 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
US10395655B1 (en) * 2017-09-13 2019-08-27 Amazon Technologies, Inc. Proactive command framework
US10515637B1 (en) * 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130211823A1 (en) * 2002-07-12 2013-08-15 Nuance Communications, Inc. Conceptual world representation natural language understanding system and method
CN1455357A (zh) * 2003-05-23 2003-11-12 郑方 一种实现多路对话的人-机汉语口语对话系统的方法
US20080162471A1 (en) * 2005-01-24 2008-07-03 Bernard David E Multimodal natural language query system for processing and analyzing voice and proximity-based queries
CN103077165A (zh) * 2012-12-31 2013-05-01 威盛电子股份有限公司 自然语言对话方法及其系统
CN104424216A (zh) * 2013-08-23 2015-03-18 佳能株式会社 用于意图挖掘的方法和设备
CN104679783A (zh) * 2013-11-29 2015-06-03 北京搜狗信息服务有限公司 一种网络搜索方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ROUSSANKA LOUKANOVA: "Constraint Based Syntax of Modifiers", 《ACM INTERNATIONAL CONFERENCES ON WEB INTELLIGENCE AND INTELLIGENT AGENT TECHNOLOGY》 *
侯圣峦等: "基于语义文法的网络舆情精准分析方法研究", 《计算机科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002434A (zh) * 2018-05-31 2018-12-14 青岛理工大学 客服问答匹配方法、服务器及存储介质

Also Published As

Publication number Publication date
TWI652668B (zh) 2019-03-01
US20190114317A1 (en) 2019-04-18
US10635859B2 (en) 2020-04-28
CN107704450B (zh) 2020-12-04
TW201916002A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN108984529B (zh) 实时庭审语音识别自动纠错方法、存储介质及计算装置
CN110321432B (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
CN111177184A (zh) 基于自然语言的结构化查询语言转换方法、及其相关设备
CA2220004A1 (en) Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
CN102184167B (zh) 一种文本数据处理方法和装置
CN109740053B (zh) 基于nlp技术的敏感词屏蔽方法和装置
US6098042A (en) Homograph filter for speech synthesis system
CN107704450A (zh) 自然语言识别设备以及自然语言识别方法
CN111192570B (zh) 语言模型训练方法、系统、移动终端及存储介质
CN104485106B (zh) 语音识别方法、语音识别系统和语音识别设备
US20190129695A1 (en) Programming by voice
CN108304483A (zh) 一种网页分类方法、装置及设备
CN110826301B (zh) 标点符号添加方法、系统、移动终端及存储介质
CN113076749A (zh) 一种文本识别方法和系统
WO2021179701A1 (zh) 多语种语音识别方法、装置及电子设备
CN109872718A (zh) 语音数据的答案获取方法及装置、存储介质、计算机设备
KR20060067717A (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
CN109960807A (zh) 一种基于上下文关联的智能语义匹配方法
CN109871528A (zh) 语音数据的语义识别方法及装置、存储介质、计算机设备
CN104641367B (zh) 用于格式化电子字符序列的格式化模块、系统和方法
CN108021559B (zh) 自然语言理解系统以及语意分析方法
Xuan et al. A semi-supervised learning method for Vietnamese part-of-speech tagging
CN108228191B (zh) 语法编译系统以及语法编译方法
Sawalha et al. Prosody prediction for arabic via the open-source boundary-annotated qur’an corpus
CN107608978A (zh) 一种英语和俄语的互译方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant