CN112163082B - 一种意图识别方法、装置、电子设备及存储介质 - Google Patents
一种意图识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112163082B CN112163082B CN202011111055.1A CN202011111055A CN112163082B CN 112163082 B CN112163082 B CN 112163082B CN 202011111055 A CN202011111055 A CN 202011111055A CN 112163082 B CN112163082 B CN 112163082B
- Authority
- CN
- China
- Prior art keywords
- word
- class
- combination
- preset
- matching result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种意图识别方法、装置、电子设备及存储介质,提高了文本意图识别的准确度和效率。所述意图识别方法,包括:将待识别文本按照预设字典进行分词,得到词语集合;根据预设的词语与词类的对应关系,确定所述词语集合中的每个词语对应的词类,并提取每个词语的词类进行组合,得到所述词语集合对应的至少两个词类组合,所述词类表征具有相近语义的词语所归属的类别;将所述词类组合与预设词类规则进行匹配,获得每个词类组合对应的匹配结果;根据所述匹配结果确定所述待识别文本的意图。
Description
技术领域
本发明涉及网络信息技术领域,尤其涉及一种意图识别方法、装置、电子设备及存储介质。
背景技术
目前在智能问答领域中,通常利用机器学习、深度学习、强化学习等智能算法使得机器理解人类语言,并与人类进行有效沟通,进而对人类语言中的意图进行识别并做出回答。
上述机器学习类方法需要大量的语料作为训练语料,通过一定的算法调整模型参数以得到满足预期的模型,然而,在很多情况下,事先并不存在大量语料,在缺乏语料的情况下使用上述机器学习类方法并不能保证意图识别的准确度,并且,机器学习的模型对于人类并不友好,理解及修改模型参数存在一定的难度,无法及时满足用户个性化、多变的需求,更新代价较大。
因此,如何提高文本意图识别的准确度和效率,是现有技术中亟待解决的技术问题之一。
发明内容
本发明实施例提供了一种意图识别方法、装置、电子设备及存储介质,提高了文本意图识别的准确度和效率。
第一方面,本发明实施例提供了一种意图识别方法,包括:
将待识别文本按照预设字典进行分词,得到词语集合;
根据预设的词语与词类的对应关系,确定所述词语集合中的每个词语对应的词类,并提取每个词语的词类进行组合,得到所述词语集合对应的至少两个词类组合,所述词类表征具有相近语义的词语所归属的类别;
将所述词类组合与预设词类规则进行匹配,获得每个词类组合对应的匹配结果;
根据所述匹配结果确定所述待识别文本的意图。
本发明实施例提供的意图识别方法中,智能问答服务器将获取的待识别文本按照预设字典进行分词,得到分词后的词语集合,根据预设的词语与词类的对应关系,确定该词语集合中的每个词语对应的词类,其中,所述词类表征具有相近语义的词语所归属的类别,即具有相近语义的词语归属于一类,进而,提取每个词语的词类进行组合,得到词语集合对应的至少两个词类组合,并将生成的各个词类组合分别与预设词类规则进行匹配,获得各自对应的匹配结果,根据各个匹配结果确定待识别文本的意图,相比于现有技术中,本发明实施例提供的上述意图识别方法,预先将多个具有相近语义的词语归为同一个词类,即:将多个具有相近语义的词语用同一标签来抽象,而将这样的多个词类的组合绑定一个具体的意图,设置为一个词类规则,当获取到待识别文本后,将待识别文本进行分词,每个词语可以属于多个词类,从而,待识别文本就可以对应多种可能的词类组合,进而,再将各个词类组合与预先设置的词类规则进行匹配,获得对应的各个匹配结果,根据各个匹配结果确定待识别文本的意图,该方法无需昂贵的计算硬件资源,也无需寻找大量的语料进行训练,提高了文本意图识别的准确度和效率。
较佳地,将待识别文本按照预设字典进行分词,得到词语集合,具体包括:
分别将所述待识别文本按照第一预设字典进行细粒度分词,以及将所述待识别文本按照第二预设字典进行粗粒度分词;
将所述进行细粒度分词得到的词语与所述进行粗粒度分词得到的词语去重后进行组合,生成词语集合。
较佳地,根据预设的词语与词类的对应关系,确定所述词语集合中的每个词语对应的词类,具体包括:
根据预设的词语与词语标识ID的对应关系,确定所述词语集合中的每个词语对应的词语ID;
根据预设的词语ID与词类ID的对应关系,确定所述每个词语ID对应的词类ID;
根据预设的词类与词类ID的对应关系,确定每一词类ID对应的词类。
较佳地,提取每个词语的词类进行组合,得到所述词语集合对应的至少两个词类组合,具体包括:
提取所述每个词语对应的任一词类,对提取的各词类去重后进行组合,生成所述词语集合对应的至少两个词类组合;以及
在生成所述词语集合对应的至少两个词类组合之后,还包括:
对生成的所述词类组合去重。
较佳地,所述预设词类规则包括预设的第一词类组合与意图的对应关系、以及所述第一词类组合的优先级;
将所述词类组合与预设词类规则进行匹配,获得每个词类组合对应的匹配结果,具体包括:
针对每一词类组合,当确定所述第一词类组合中词类的个数小于或者等于所述词类组合中词类的个数、且所述第一词类组合中的各词类均包含于所述词类组合中时,将所述第一词类组合与其对应的意图确定为所述词类组合对应的匹配结果。
较佳地,根据所述匹配结果确定所述待识别文本的意图,具体包括:
根据预设算法确定各个匹配结果的置信度;
将置信度大于或者等于预设阈值的匹配结果中的第一词类组合对应的意图确定为所述待识别文本的意图。
较佳地,根据预设算法确定各个匹配结果的置信度,具体包括:
针对每一匹配结果,通过以下公式确定所述匹配结果的置信度:
其中,S表示所述匹配结果的置信度;
L表示所述匹配结果中的第一词类组合的词类个数;
P表示所述匹配结果中的所述第一词类组合的优先级。
第二方面,本发明实施例提供了一种意图识别装置,包括:
分词单元,用于将待识别文本按照预设字典进行分词,得到词语集合;
处理单元,用于根据预设的词语与词类的对应关系,确定所述词语集合中的每个词语对应的词类,并提取每个词语的词类进行组合,得到所述词语集合对应的至少两个词类组合,所述词类表征具有相近语义的词语所归属的类别;
匹配单元,用于将所述词类组合与预设词类规则进行匹配,获得每个词类组合对应的匹配结果;
意图识别单元,用于根据所述匹配结果确定所述待识别文本的意图。
较佳地,所述分词单元,具体用于分别将所述待识别文本按照第一预设字典进行细粒度分词,以及将所述待识别文本按照第二预设字典进行粗粒度分词;将所述进行细粒度分词得到的词语与所述进行粗粒度分词得到的词语去重后进行组合,生成词语集合。
较佳地,所述处理单元,具体用于根据预设的词语与词语标识ID的对应关系,确定所述词语集合中的每个词语对应的词语ID;根据预设的词语ID与词类ID的对应关系,确定所述每个词语ID对应的词类ID;根据预设的词类与词类ID的对应关系,确定每一词类ID对应的词类。
较佳地,所述处理单元,具体用于提取所述每个词语对应的任一词类,对提取的各词类去重后进行组合,生成所述词语集合对应的至少两个词类组合;以及
所述装置还包括生成单元,用于在生成所述词语集合对应的至少两个词类组合之后,对生成的所述词类组合去重。
较佳地,所述预设词类规则包括预设的第一词类组合与意图的对应关系、以及所述第一词类组合的优先级;
所述匹配单元,具体用于针对每一词类组合,当确定所述第一词类组合中词类的个数小于或者等于所述词类组合中词类的个数、且所述第一词类组合中的各词类均包含于所述词类组合中时,将所述第一词类组合与其对应的意图确定为所述词类组合对应的匹配结果。
较佳地,所述意图识别单元,具体用于根据预设算法确定各个匹配结果的置信度;将置信度大于或者等于预设阈值的匹配结果中的第一词类组合对应的意图确定为所述待识别文本的意图。
较佳地,所述意图识别单元,具体用于针对每一匹配结果,通过以下公式确定所述匹配结果的置信度:
其中,S表示所述匹配结果的置信度;
L表示所述匹配结果中的第一词类组合的词类个数;
P表示所述匹配结果中的所述第一词类组合的优先级。
本发明提供的意图识别装置的技术效果可以参见上述第一方面或第一方面的各个实现方式的技术效果,此处不再赘述。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明所述的意图识别方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明所述的意图识别方法中的步骤。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供的意图识别方法的实施流程示意图;
图2为本发明实施例提供的对待识别文本进行分词的实施流程示意图;
图3为本发明实施例提供的确定词语集合中的每个词语对应的词类的实施流程示意图;
图4为本发明实施例提供的确定待识别文本的意图的实施流程示意图;
图5为本发明实施例提供的意图识别装置的结构示意图;
图6为本发明实施例提供的电子设备的结构示意图。
具体实施方式
本发明实施例提供了一种意图识别方法、装置、电子设备及存储介质,提高了文本意图识别的准确度和效率。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本发明实施例提供的意图识别方法的实施流程示意图,该意图识别方法可以应用于智能问答服务器中,智能问答服务器可以是独立的物理服务器,也可以是提供云服务器、云数据库、云存储等基础云计算服务的云服务器,本发明实施例对此不作限定。该意图识别方法具体可以包括以下步骤:
S11、将待识别文本按照预设字典进行分词,得到词语集合。
具体实施时,在智能问答服务器与客户端组成的智能问答系统中,智能问答服务器预先设置词语字典,词语字典可以至少包括两类,一类是由细粒度词语组成的字典,记为:细粒度词语字典,一类是由粗粒度词语组成的字典,记为:粗粒度词语字典,其中,小于或者等于两个字的词语可以称为细粒度词语,大于或者等于三个字的词语可以称为粗粒度词语。本发明实施例中,可以但不限于采用基于双数组的前缀树数据结构存储字典信息,这样的数据结构查询和更新的速度较快。
智能问答服务器获取用户通过客户端输入的待识别文本,如果用户输入的为语音信息,则智能问答服务器需要先对用户输入的语音信息进行语音识别,将该语音信息转化为文本。
具体地,可按照如图2所示的流程对待识别文本进行分词得到词语集合,可以包括以下步骤:
S21、分别将待识别文本按照第一预设字典进行细粒度分词,以及将所述待识别文本按照第二预设字典进行粗粒度分词。
具体实施时,智能问答服务器分别将待识别文本按照第一预设字典进行细粒度分词,得到分词后的各个细粒度词语,以及将待识别文本按照第二预设字典进行粗粒度分词,得到分词后的各个粗粒度词语,其中,第一预设字典为细粒度词语字典,第二预设字典为粗粒度词语字典。
S22、将所述进行细粒度分词得到的词语与所述进行粗粒度分词得到的词语去重后进行组合,生成词语集合。
具体实施时,智能问答服务器将进行细粒度分词得到的各个细粒度词语与进行粗粒度分词得到的粗粒度词语去重后进行组合,生成词语集合。如果生成的词语集合的词语中有繁体字的,则将繁体字转换为简体字,有英文单词的,则将英文单词转换成统一的大写或者小写等操作。
例如,待识别文本为“更多服务项目在哪?”,对其进行细粒度分词得到的细粒度词语为:“更多”、“服务”、“项目”、“在哪”、“问号”,对其进行粗粒度分词得到的粗粒度词语为:“更多”、“服务项目”、“在哪”、“问号”,将上述各个细粒度词语和粗粒度词语去重后得到的词语集合中包括的词语为{“更多”“服务”“项目”“在哪”“服务项目”“问号”},其中,生成的词语集合中的各个词语可以按照任意的排列顺序进行排列,本发明实施例对此不作限定。
具体实施时,也可以仅按照第一预设字典和第二预设字典中的任意一个字典对待识别文本进行分词,生成词语集合,本发明实施例对此不作限定。
S12、根据预设的词语与词类的对应关系,确定所述词语集合中的每个词语对应的词类,并提取每个词语的词类进行组合,得到所述词语集合对应的至少两个词类组合。
具体实施时,智能问答服务器根据预设的词语与词类的对应关系,确定生成的词语集合中的每个词语对应的词类,所述词类表征具有相近语义的词语所归属的类别,即:将具有相近语义的词语归为同一类别,用同一个标签来表示,即词类,一个词语也可以对应多个不同的词类。例如,可以将词语“委托”、“代替”归为同一词类:“代替”,词语“办理”可以归属于多个不同的词类如:“申请”、“办理”、“领取”、“获得”。词语所归属的词类可以根据具体的业务场景自行进行设置,本发明实施例对此不作限定。
较佳地,可以按照如图3所示的流程确定上述生成的词语集合中的每个词语对应的词类,可以包括以下步骤:
S31、根据预设的词语与词语ID的对应关系,确定词语集合中的每个词语对应的词语ID。
具体实施时,智能问答服务器预先为不同词语设置对应的ID(Identitydocument,唯一标识),并建立词语与词语ID的对应关系,并预先为不同词类设置对应的ID,并建立词类与词类ID的对应关系,以及预先建立词语ID与词类ID的对应关系并存储,其中,词语ID对应的词类ID为该词语ID表示的词语所归属的词类的ID。
具体地,智能问答服务器根据上述预先建立的词语与词语ID的对应关系,确定生成的词语集合中的每个词语对应的词语ID。
S32、根据预设的词语ID与词类ID的对应关系,确定所述每个词语ID对应的词类ID。
具体实施时,智能问答服务器根据上述预先建立的词语ID与词类ID的对应关系,确定生成的词语集合中的每个词语ID各自对应的词类ID。
S33、根据预设的词类与词类ID的对应关系,确定每一词类ID对应的词类。
具体实施时,智能问答服务器根据预先建立的词类与词类ID的对应关系,确定生成的词语集合中的每个词语ID各自对应的词类。
需要说明的是,词语ID和词类ID可以自行设置,本发明实施例对此不作限定。
进而,提取所述词语集合中的每个词语的词类进行组合,生成所述词语集合对应的至少两个词类组合。
具体实施时,智能问答服务器提取词语集合中的每个词语对应的任一词类,对提取的各词类去重后进行组合,生成所述词语集合对应的至少两个词类组合。也就是说,将词语集合中的每个词语所归属的词类去重后进行组合,生成所有可能的词类组合。
较佳地,在生成上述各个词类组合之后,还可以对各个词类组合去重,使得各个词类组合中不存在相同的词类组合。
例如,待识别文本“可以委托他人办理红利领取吗?”分词后生成的词语集合如下:{“可以”“委托”“他人”“办理”“红利”“领取”“吗”“问号”},其中,“可以”所归属的词类为:“可以”,“委托”所归属的词类为:“代替”、“委托”,“他人”所归属的词类为:“他人”,“办理”所归属的词类为:“办理”,“红利”所归属的词类为:“红利”,“领取”所归属的词类为:“领取”,“吗”所归属的词类为:“语气词”,“问号”所归属的词类为:“问号”,则由各个词语所归属的词类组成的所有可能的词类组合包括:{“可以”“代替”“他人”“办理”“红利”“领取”“语气词”“问号”}和{“可以”“委托”“他人”“办理”“红利”“领取”“语气词”“问号”}。
可选地,具体实施时,也可以提取词语集合中每个词语对应的词类ID进行组合,生成词语集合对应的至少两个词类ID组合。
S13、将所述词类组合与预设词类规则进行匹配,获得每个词类组合对应的匹配结果。
具体实施时,智能问答服务器预先设置词类规则,所述词类规则包括预设的词类组合与意图的对应关系,以及词类组合的优先级,此处的词类组合记为:第一词类组合。预先设置的第一词类组合即形成一条子规则,具有相同意图的第一词类组合可生成一条总规则。
例如,第一词类组合1为:{“红利”“申请”“可以”“代办”},第一词类组合2为:{“红利”“办理”“可以”“代办”},第一词类组合3为:{“红利”“领取”“可以”“代办”},第一词类组合4为:{“红利”“获得”“可以”“代办”},第一词类组合5为:{“红利”“提现”“可以”“代办”},第一词类组合6为:{“红利”“申请”“能否”“代办”},第一词类组合7为:{“红利”“办理”“能否”“代办”},第一词类组合8为:{“红利”“领取”“能否”“代办”},第一词类组合9为:{“红利”“获得”“能否”“代办”},第一词类组合10为:{“红利”“提现”“能否”“代办”},第一词类组合11为:{“红利”“申请”“可以”“代替”},第一词类组合12为:{“红利”“办理”“可以”“代替”},第一词类组合13为:{“红利”“领取”“可以”“代替”},第一词类组合14为:{“红利”“获得”“可以”“代替”},第一词类组合15为:{“红利”“提现”“可以”“代替”},第一词类组合16为:{“红利”“申请”“能否”“代替”},第一词类组合17为:{“红利”“办理”“能否”“代替”},第一词类组合18为:{“红利”“领取”“能否”“代办”},第一词类组合19为:{“红利”“获得”“能否”“代替”},第一词类组合20为:{“红利”“提现”“能否”“代替”},第一词类组合21为:{“红利”“申请”“可以”“帮助”},第一词类组合22为:{“红利”“办理”“可以”“帮助”},第一词类组合23为:{“红利”“领取”“可以”“帮助”},第一词类组合24为:{“红利”“获得”“可以”“帮助”},第一词类组合25为:{“红利”“提现”“可以”“帮助”},第一词类组合26为:{“红利”“申请”“能否”“帮助”},第一词类组合27为:{“红利”“办理”“能否”“帮助”},第一词类组合28为:{“红利”“领取”“能否”“帮助”},第一词类组合29为:{“红利”“获得”“能否”“帮助”},第一词类组合30为:{“红利”“提现”“能否”“帮助”},第一词类组合1~30对应的意图均为“红利都可以在哪里领取?”则第一词类组合1~30可以生成一条总规则,可表示如下:{“红利”“申请|办理|领取|获得|提现”“可以|能否”“代办|代替|帮助”}。需要说明的是,本发明实施例对第一词类组合中各个词类的排列顺序不作限定,可自由排列。
具体地,针对生成的每一词类组合,当确定第一词类组合中词类的个数小于或者等于该词类组合中词类的个数、且所述第一词类组合中的各词类均包含于该词类组合中时,将所述第一词类组合与其对应的意图确定为该词类组合对应的匹配结果。即当同时满足两个条件:(1)一条词类规则中的第一词类组合中词类的个数小于或者等于该词类组合中词类的个数,(2)该条词类规则中的第一词类组合中的各词类均包含于该词类组合中,则确定该词类组合与该条词类规则相匹配。
仍以步骤S12中所举的实例进行说明,待识别文本“可以委托他人办理红利领取吗?”对应的词类组合为:{“可以”“代替”“他人”“办理”“红利”“领取”“语气词”“问号”}和{“可以”“委托”“他人”“办理”“红利”“领取”“语气词”“问号”},分别将这两个词类组合与预设词类规则进行匹配,匹配结果包括:
匹配结果1:匹配到的第一词类组合(即子规则)1为:{“办理”“领取”“他人”“代替”“红利”},该条子规则所属的总规则为:{“代替”“对方|他人”“办理|申请”“红利”“领取”},该第一词类组合对应的意图为“可以通过柜面代替他人办理红利领取吗?”。
匹配结果2:匹配到的第一词类组合2为:{“领取”“可以”“代替”“红利”},该条子规则所属的总规则为:{“红利”“申请|办理|领取|获得|提现”“可以|能否”“代办|代替|帮助”},该第一词类组合对应的意图为“红利可以在哪里领取?”。
匹配结果3:匹配到的第一词类组合3为:{“领取”“可以”“语气词”“红利”},该条子规则所属的总规则为:{“红利”“可以”“时间”“领取”“语气词”},该第一词类组合对应的意图为“我的红利怎么领取?”。
匹配结果4:匹配到的第一词类组合4为:{“红利”},该条子规则所属的总规则为:{“我的”“红利”}和{“保单”“红利”“几个|多少”}两个,该第一词类组合对应的意图为“保险问题”、以及“红利金额是多少?”两个。
可选地,在设置词类规则时,也可以将词类规则设置为预设词类ID组合与意图ID的对应关系、以及词类ID组合的优先级,则在具体实施过程中,也可以分别将各个词类ID组合与预设词类规则进行匹配,获得匹配结果,本发明实施例对此不作限定。
S14、根据所述匹配结果确定所述待识别文本的意图。
具体实施时,智能问答服务器根据各个匹配结果确定待识别文本的意图。
具体地,按照如图4所示的流程确定待识别文本的意图,可以包括以下步骤:
S41、根据预设算法确定各个匹配结果的置信度。
具体实施时,智能问答服务器针对每一匹配结果,可以通过以下公式确定该匹配结果的置信度:
其中,S表示所述匹配结果的置信度;
L表示所述匹配结果中的第一词类组合的词类个数(即:匹配到的子规则中的词类个数);
P表示所述匹配结果中的所述第一词类组合的优先级(即:匹配到的子规则中的优先级)。
假设可以预先设置第一词类组合(即子规则)的优先级共包括三个:优先级1>优先级2>优先级3,本发明实施例对此不作限定。仍延续上例,假设第一词类组合1的优先级为1,第一词类组合2~4的优先级均为3,则上述匹配结果1的置信度匹配结果2的置信度/> 匹配结果3的置信度/>匹配结果4的置信度/>
S42、将置信度大于或者等于预设阈值的匹配结果中的第一词类组合对应的意图确定为待识别文本的意图。
具体地,智能问答服务器将置信度大于或者等于预设阈值的匹配结果中的第一词类组合对应的意图确定为待识别文本的意图。其中,预设阈值可以自行设定,例如,可以设置为0.6,本发明实施例对此不作限定。上例中,匹配结果1的置信度>0.6,则可以将匹配结果1中的第一词类组合1对应的意图“可以通过柜面代替他人办理红利领取吗?”确定为待识别文本“可以委托他人办理红利领取吗?”的意图,“可以通过柜面代替他人办理红利领取吗?”是智能问答服务器预先设置的一个标准问题,其有对应的答案。
可选地,智能问答服务器可以将各个匹配结果、各匹配结果中匹配到的意图相应的回答、以及匹配结果的置信度按照置信度由高到低的顺序排列返回至客户端,在客户端中进行显示,以供用户查看。
当预设的词类规则为预设词类ID组合与意图ID的对应关系、以及词类ID组合的优先级时,则将各个匹配结果、各匹配结果中匹配到的意图ID相应的回答、以及匹配结果的置信度按照置信度由高到低的顺序排列返回至客户端,在客户端中进行显示。
本发明实施例提供的意图识别方法中,智能问答服务器将获取的待识别文本按照预设字典进行分词,得到分词后的词语集合,根据预设的词语与词类的对应关系,确定该词语集合中的每个词语对应的词类,其中,所述词类表征具有相近语义的词语所归属的类别,即具有相近语义的词语归属于一类,进而,提取每个词语的词类进行组合,得到词语集合对应的至少两个词类组合,并将生成的各个词类组合分别与预设词类规则进行匹配,获得各自对应的匹配结果,根据预设算法确定各个匹配结果的置信度,并根据各个匹配结果的置信度确定待识别文本的意图,相比于现有技术中,本发明实施例提供的上述意图识别方法,预先将多个具有相近语义的词语归为同一个词类,即:将多个具有相近语义的词语用同一标签来抽象,而将这样的多个词类的组合绑定一个具体的意图,设置为一个词类规则,当获取到待识别文本后,将待识别文本进行分词,每个词语可以属于多个词类,从而,待识别文本就可以对应多种可能的词类组合,进而,再将各个词类组合与预先设置的词类规则进行匹配,获得对应的各个匹配结果,根据各个匹配结果的置信度确定待识别文本的意图,该方法无需昂贵的计算硬件资源,也无需寻找大量的语料进行训练,提高了文本意图识别的准确度和效率。
需要说明的是,本发明实施例提供的意图识别方法可以应用于任意智能问答服务场景。例如,在一个用户访问远程图文问诊的应用场景中,首先接待用户的是智能问答客服机器人,帮助医生对患者进行前期的分类筛选,智能问答客服机器人可以通过文本形式的问题向用户询问姓名、年龄、性别、病情描述等信息,进而,智能问答客服机器人通过分析患者的回答来确定患者所患的是哪种疾病、严重程度、患病时长等信息,根据识别的患者的这些相关信息,将当前患者推荐给某位合适的医生(包括医生所在科室、专业水平等的考虑),具体实施过程如下:
智能问答客服机器人在获得用户回复的姓名、年龄、性别、病情描述等文本信息后,对病情描述信息进行预处理,如删除空格、大小写转换、繁简体转换等预处理,将预处理后的病情描述信息分别按照细粒度词语字典进行细粒度分词,得到分词后的各个细粒度词语,以及按照粗粒度词语字典进行粗粒度分词,得到分词后的各个粗粒度词语,进而,将得到的各个细粒度词语与各个粗粒度词语去重后进行组合得到最终的分词结果,生成词语集合,从预先存储的词语与词类的对应关系中查询词语集合中每个词语各自所属的所有词类,这样每个词语就对应一个词类的集合,针对词语集合中的每一词语,从其所属的词类的集合中提取任意一个词类,对提取的各词类去重后进行组合,生成所有可能的词类组合,进而,对生成的各词类组合去重,分别将去重后的各个词类组合与预先设置的词类规则进行匹配,获得每个词类组合对应的匹配结果,并分别计算各个匹配结果的置信度,将所有匹配结果按照分组的大小进行排序,选择置信度大于或者等于预设阈值的匹配结果中匹配到的意图确定为病情描述信息对应的意图,并根据确定的(一个或多个)意图查询该(一个或多个)意图对应的答案,依据一定的话术模板,组织成最终的患者病情分析结果,根据患者病情分析结果为用户推荐合适的医生。
基于同一发明构思,本发明实施例还提供了一种意图识别装置,由于上述意图识别装置解决问题的原理与意图识别方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,其为本发明实施例提供的意图识别装置的结构示意图,可以包括:
分词单元51,用于将待识别文本按照预设字典进行分词,得到词语集合;
处理单元52,用于根据预设的词语与词类的对应关系,确定所述词语集合中的每个词语对应的词类,并提取每个词语的词类进行组合,得到所述词语集合对应的至少两个词类组合,所述词类表征具有相近语义的词语所归属的类别;
匹配单元53,用于将所述词类组合与预设词类规则进行匹配,获得每个词类组合对应的匹配结果;
意图识别单元54,用于根据所述匹配结果确定所述待识别文本的意图。
较佳地,所述分词单元51,具体用于分别将所述待识别文本按照第一预设字典进行细粒度分词,以及将所述待识别文本按照第二预设字典进行粗粒度分词;将所述进行细粒度分词得到的词语与所述进行粗粒度分词得到的词语去重后进行组合,生成词语集合。
较佳地,所述处理单元52,具体用于根据预设的词语与词语标识ID的对应关系,确定所述词语集合中的每个词语对应的词语ID;根据预设的词语ID与词类ID的对应关系,确定所述每个词语ID对应的词类ID;根据预设的词类与词类ID的对应关系,确定每一词类ID对应的词类。
较佳地,所述处理单元52,具体用于提取所述每个词语对应的任一词类,对提取的各词类去重后进行组合,生成所述词语集合对应的至少两个词类组合;以及
所述装置还包括生成单元,用于在生成所述词语集合对应的至少两个词类组合之后,对生成的所述词类组合去重。
较佳地,所述预设词类规则包括预设的第一词类组合与意图的对应关系、以及所述第一词类组合的优先级;
所述匹配单元53,具体用于针对每一词类组合,当确定所述第一词类组合中词类的个数小于或者等于所述词类组合中词类的个数、且所述第一词类组合中的各词类均包含于所述词类组合中时,将所述第一词类组合与其对应的意图确定为所述词类组合对应的匹配结果。
较佳地,所述意图识别单元54,具体用于根据预设算法确定各个匹配结果的置信度;将置信度大于或者等于预设阈值的匹配结果中的第一词类组合对应的意图确定为所述待识别文本的意图。
较佳地,所述意图识别单元54,具体用于针对每一匹配结果,通过以下公式确定所述匹配结果的置信度:
其中,S表示所述匹配结果的置信度;
L表示所述匹配结果中的第一词类组合的词类个数;
P表示所述匹配结果中的所述第一词类组合的优先级。
基于同一技术构思,本发明实施例还提供了一种电子设备600,参照图6所示,电子设备600用于实施上述方法实施例记载的意图识别方法,该实施例的电子设备600可以包括:存储器601、处理器602以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如意图识别程序。所述处理器执行所述计算机程序时实现上述各个意图识别方法实施例中的步骤,例如图1所示的步骤S11。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如51。
本发明实施例中不限定上述存储器601、处理器602之间的具体连接介质。本申请实施例在图6中以存储器601、处理器602之间通过总线603连接,总线603在图6中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线603可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器601可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器601也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器601是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器601可以是上述存储器的组合。
处理器602,用于实现如图1所示的一种意图识别方法,包括:
所述处理器602,用于调用所述存储器601中存储的计算机程序执行如图1中所示的步骤S11、将待识别文本按照预设字典进行分词,得到词语集合,步骤S12、根据预设的词语与词类的对应关系,确定所述词语集合中的每个词语对应的词类,并提取每个词语的词类进行组合,得到所述词语集合对应的至少两个词类组合,步骤S13、将所述词类组合与预设词类规则进行匹配,获得每个词类组合对应的匹配结果,和步骤S14、根据所述匹配结果确定所述待识别文本的意图。
本申请实施例还提供了一种计算机可读存储介质,存储为执行上述处理器所需执行的计算机可执行指令,其包含用于执行上述处理器所需执行的程序。
在一些可能的实施方式中,本发明提供的意图识别方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的意图识别方法中的步骤,例如,所述电子设备可以执行如图1中所示的步骤S11、将待识别文本按照预设字典进行分词,得到词语集合,步骤S12、根据预设的词语与词类的对应关系,确定所述词语集合中的每个词语对应的词类,并提取每个词语的词类进行组合,得到所述词语集合对应的至少两个词类组合,步骤S13、将所述词类组合与预设词类规则进行匹配,获得每个词类组合对应的匹配结果,和步骤S14、根据所述匹配结果确定所述待识别文本的意图。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种意图识别方法,其特征在于,包括:
将待识别文本按照预设字典进行分词,得到词语集合;
根据预设的词语与词类的对应关系,确定所述词语集合中的每个词语对应的词类,并提取每个词语的词类进行组合,得到所述词语集合对应的至少两个词类组合,所述词类表征具有相近语义的词语所归属的类别;
将所述词类组合与预设词类规则进行匹配,获得每个词类组合对应的匹配结果;所述预设词类规则包括预设的第一词类组合与意图的对应关系、以及所述第一词类组合的优先级;将所述词类组合与预设词类规则进行匹配,获得每个词类组合对应的匹配结果,具体包括:针对每一词类组合,当确定所述第一词类组合中词类的个数小于或者等于所述词类组合中词类的个数、且所述第一词类组合中的各词类均包含于所述词类组合中时,将所述第一词类组合与其对应的意图确定为所述词类组合对应的匹配结果;
根据所述匹配结果确定所述待识别文本的意图。
2.如权利要求1所述的方法,其特征在于,将待识别文本按照预设字典进行分词,得到词语集合,具体包括:
分别将所述待识别文本按照第一预设字典进行细粒度分词,以及将所述待识别文本按照第二预设字典进行粗粒度分词;
将所述进行细粒度分词得到的词语与所述进行粗粒度分词得到的词语去重后进行组合,生成词语集合。
3.如权利要求1或2所述的方法,其特征在于,根据预设的词语与词类的对应关系,确定所述词语集合中的每个词语对应的词类,具体包括:
根据预设的词语与词语标识ID的对应关系,确定所述词语集合中的每个词语对应的词语ID;
根据预设的词语ID与词类ID的对应关系,确定所述每个词语ID对应的词类ID;
根据预设的词类与词类ID的对应关系,确定每一词类ID对应的词类。
4.如权利要求1所述的方法,其特征在于,提取每个词语的词类进行组合,得到所述词语集合对应的至少两个词类组合,具体包括:
提取所述每个词语对应的任一词类,对提取的各词类去重后进行组合,生成所述词语集合对应的至少两个词类组合;以及
在生成所述词语集合对应的至少两个词类组合之后,还包括:
对生成的所述词类组合去重。
5.如权利要求1所述的方法,其特征在于,根据所述匹配结果确定所述待识别文本的意图,具体包括:
根据预设算法确定各个匹配结果的置信度;
将置信度大于或者等于预设阈值的匹配结果中的第一词类组合对应的意图确定为所述待识别文本的意图。
6.如权利要求5所述的方法,其特征在于,根据预设算法确定各个匹配结果的置信度,具体包括:
针对每一匹配结果,通过以下公式确定所述匹配结果的置信度:
其中,S表示所述匹配结果的置信度;
L表示所述匹配结果中的第一词类组合的词类个数;
P表示所述匹配结果中的所述第一词类组合的优先级。
7.一种意图识别装置,其特征在于,包括:
分词单元,用于将待识别文本按照预设字典进行分词,得到词语集合;
处理单元,用于根据预设的词语与词类的对应关系,确定所述词语集合中的每个词语对应的词类,并提取每个词语的词类进行组合,得到所述词语集合对应的至少两个词类组合,所述词类表征具有相近语义的词语所归属的类别;
匹配单元,用于将所述词类组合与预设词类规则进行匹配,获得每个词类组合对应的匹配结果;所述预设词类规则包括预设的第一词类组合与意图的对应关系、以及所述第一词类组合的优先级;
所述匹配单元,具体用于针对每一词类组合,当确定所述第一词类组合中词类的个数小于或者等于所述词类组合中词类的个数、且所述第一词类组合中的各词类均包含于所述词类组合中时,将所述第一词类组合与其对应的意图确定为所述词类组合对应的匹配结果;
意图识别单元,用于根据所述匹配结果确定所述待识别文本的意图。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~6任一项所述的意图识别方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~6任一项所述的意图识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011111055.1A CN112163082B (zh) | 2020-10-16 | 2020-10-16 | 一种意图识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011111055.1A CN112163082B (zh) | 2020-10-16 | 2020-10-16 | 一种意图识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112163082A CN112163082A (zh) | 2021-01-01 |
CN112163082B true CN112163082B (zh) | 2023-09-12 |
Family
ID=73867560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011111055.1A Active CN112163082B (zh) | 2020-10-16 | 2020-10-16 | 一种意图识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163082B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114676691B (zh) * | 2022-05-27 | 2022-09-09 | 深圳市人马互动科技有限公司 | 一种识别方法、系统、设备以及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858007A (zh) * | 2017-11-30 | 2019-06-07 | 上海智臻智能网络科技股份有限公司 | 语义分析问答方法和装置、计算机设备和存储介质 |
CN110147445A (zh) * | 2019-04-09 | 2019-08-20 | 平安科技(深圳)有限公司 | 基于文本分类的意图识别方法、装置、设备及存储介质 |
CN110162780A (zh) * | 2019-04-08 | 2019-08-23 | 深圳市金微蓝技术有限公司 | 用户意图的识别方法和装置 |
CN110569507A (zh) * | 2019-09-09 | 2019-12-13 | 北京金鑫魔方科技有限责任公司 | 语义识别方法、装置、设备及存储介质 |
CN111062211A (zh) * | 2019-12-27 | 2020-04-24 | 中国联合网络通信集团有限公司 | 信息提取方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2579873C2 (ru) * | 2013-12-19 | 2016-04-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи семантического классификатора |
US20190164064A1 (en) * | 2017-11-27 | 2019-05-30 | Shanghai Xiaoi Robot Technology Co., Ltd. | Question and answer interaction method and device, and computer readable storage medium |
-
2020
- 2020-10-16 CN CN202011111055.1A patent/CN112163082B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858007A (zh) * | 2017-11-30 | 2019-06-07 | 上海智臻智能网络科技股份有限公司 | 语义分析问答方法和装置、计算机设备和存储介质 |
CN110162780A (zh) * | 2019-04-08 | 2019-08-23 | 深圳市金微蓝技术有限公司 | 用户意图的识别方法和装置 |
CN110147445A (zh) * | 2019-04-09 | 2019-08-20 | 平安科技(深圳)有限公司 | 基于文本分类的意图识别方法、装置、设备及存储介质 |
CN110569507A (zh) * | 2019-09-09 | 2019-12-13 | 北京金鑫魔方科技有限责任公司 | 语义识别方法、装置、设备及存储介质 |
CN111062211A (zh) * | 2019-12-27 | 2020-04-24 | 中国联合网络通信集团有限公司 | 信息提取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112163082A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657231B2 (en) | Capturing rich response relationships with small-data neural networks | |
AU2018214675B2 (en) | Systems and methods for automatic semantic token tagging | |
CN111709233B (zh) | 基于多注意力卷积神经网络的智能导诊方法及系统 | |
CN107808011B (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
US10713306B2 (en) | Content pattern based automatic document classification | |
CN113707300B (zh) | 基于人工智能的搜索意图识别方法、装置、设备及介质 | |
JP2021504798A (ja) | データ匿名化のためコンピュータが実行する方法、システム、コンピュータ・プログラム、コンピュータ・プログラム、および記憶媒体 | |
US10706030B2 (en) | Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure | |
US20220139063A1 (en) | Filtering detected objects from an object recognition index according to extracted features | |
WO2016171709A1 (en) | Text restructuring | |
CN113656587A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113569018A (zh) | 问答对挖掘方法及装置 | |
TW202123026A (zh) | 資料歸檔方法、裝置、電腦裝置及存儲介質 | |
WO2021012958A1 (zh) | 原创文本甄别方法、装置、设备与计算机可读存储介质 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN112163082B (zh) | 一种意图识别方法、装置、电子设备及存储介质 | |
US11163761B2 (en) | Vector embedding models for relational tables with null or equivalent values | |
CN113342944A (zh) | 一种语料泛化方法、装置、设备及存储介质 | |
US10838973B2 (en) | Processing datasets of varying schemas from tenants | |
CA3165960A1 (en) | Extracting content from freeform text samples into custom fields in a software application | |
CN111597453B (zh) | 用户画像方法、装置、计算机设备及计算机可读存储介质 | |
CN110647914A (zh) | 智能服务水平训练方法、装置及计算机可读存储介质 | |
CN110046349A (zh) | 基于中文病历的信息识别方法、装置、设备及存储介质 | |
CN114116838B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN114974490A (zh) | 用于构建医学术语平台的方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |