CN110222186B - 叠字类问题处理方法、处理装置、设备及存储介质 - Google Patents

叠字类问题处理方法、处理装置、设备及存储介质 Download PDF

Info

Publication number
CN110222186B
CN110222186B CN201910511968.3A CN201910511968A CN110222186B CN 110222186 B CN110222186 B CN 110222186B CN 201910511968 A CN201910511968 A CN 201910511968A CN 110222186 B CN110222186 B CN 110222186B
Authority
CN
China
Prior art keywords
target
character
overlapping
characters
repeated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910511968.3A
Other languages
English (en)
Other versions
CN110222186A (zh
Inventor
郭建廷
岳聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mobvoi Information Technology Co Ltd
Original Assignee
Mobvoi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mobvoi Information Technology Co Ltd filed Critical Mobvoi Information Technology Co Ltd
Priority to CN201910511968.3A priority Critical patent/CN110222186B/zh
Publication of CN110222186A publication Critical patent/CN110222186A/zh
Application granted granted Critical
Publication of CN110222186B publication Critical patent/CN110222186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种叠字类问题处理方法,包括:判断目标问题是否为叠字类问题;如果目标问题是叠字类问题,则对目标问题进行标注,获得目标问题的重复个数和重复单字;如果目标问题不是叠字类问题,则不对目标问题进行标注;以及基于目标问题的重复个数和重复单字,获得目标叠字。本公开还提供了一种叠字类问题处理装置、电子设备及可读存储介质。

Description

叠字类问题处理方法、处理装置、设备及存储介质
技术领域
本公开涉及一种叠字类问题处理方法、处理装置、电子设备及可读存储介质。
背景技术
叠字是指汉字中以多个完全相同的字组成的一类字。重复单字:叠字中重复的汉字。比如森是一个叠字,重复单字就是木。叠字类问题:能够从问题中解析出重复单字以及重复单字的重复个数,并且问答的答案是一个叠字的问题。比如,“三个木是什么字”、“四个火焰的火组成的字是什么”。
现有的问答系统中,给出一个问题答案的方式主要分为两种:基于知识图谱的方法以及基于搜索的方法。而这两种方式都不适合回答叠字类问题。首先,基于知识图谱的方法,需要在知识图谱中有这种叠字类的结构化数据,即实体—属性—属性值(比如,木—三叠字—森),但是知识图谱中缺少这类数据,所以不能回答叠字类问题。而基于搜索的方法,搜索的是各类问答社区中网友提出的问题,在问答社区中找到最相似的问题,该问题的答案即为问答系统给出的答案。由于网友给出的答案的正确性无法保证,以及网友答案中可能存在多余的部分,所以基于搜索的方法也不适合回答叠字类问题。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种叠字类问题处理方法、处理装置、电子设备及可读存储介质。
根据本公开的一个方面,一种叠字类问题处理方法,包括:判断目标问题是否为叠字类问题;如果目标问题是叠字类问题,则对目标问题进行标注,获得目标问题的重复个数和重复单字;如果目标问题不是叠字类问题,则不对目标问题进行标注;以及基于目标问题的重复个数和重复单字,获得目标叠字。
根据本公开的至少一个实施方式,判断目标问题是否为叠字类问题,包括:对目标问题进行叠字类问题概率分析和非叠字类问题概率分析,如果叠字类问题概率大于非叠字类问题概率,则将目标问题判断为叠字类问题。
根据本公开的至少一个实施方式,对目标问题进行叠字类问题概率分析和非叠字类问题概率分析,包括:将目标问题的汉字表达转换为数学表达,使用经过机器学习算法训练的二分类数学模型对目标问题的数学表达进行叠字类问题概率分析和非叠字类问题概率分析。
根据本公开的至少一个实施方式,对目标问题进行标注,获得目标问题的重复个数和重复单字,包括:判断目标问题中的每个汉字的类型并输出相应的类型标签,基于每个汉字的类型标签,提取出目标问题的重复个数的类型标签对应的汉字和目标问题的重复单字的类型标签对应的汉字。
根据本公开的至少一个实施方式,判断目标问题中的每个汉字的类型并输出相应的类型标签,包括:将目标问题的汉字表达转换为数学表达,使用经过机器学习算法训练的标注数学模型对目标问题的数学表达进行标注,输出每个汉字的类型标签。
根据本公开的至少一个实施方式,基于目标问题的重复个数和重复单字,获得目标叠字,包括:在叠字知识库中查找目标问题的重复个数和重复单字,获得重复个数和重复单字对应的目标叠字;叠字知识库将每个叠字存储为三要素表达:重复个数-重复单字-目标叠字。
根据本公开的至少一个实施方式,基于答案模板和目标叠字,生成目标答案。
根据本公开的另一方面,一种叠字类问题处理装置,包括:判断装置,判断装置判断目标问题是否为叠字类问题;标注装置,如果目标问题是叠字类问题,则标注装置对目标问题进行标注,获得目标问题的重复个数和重复单字;如果目标问题不是叠字类问题,则标注装置不对目标问题进行标注;以及获取装置,获取装置基于目标问题的重复个数和重复单字,获得目标叠字。
根据本公开的又一方面,一种电子设备,包括:存储器,存储器存储计算机执行指令;以及处理器,处理器执行存储器存储的计算机执行指令,使得处理器执行上述的方法。
根据本公开的再一方面,一种可读存储介质,可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是根据本公开一个实施方式的叠字类问题处理方法的示意性流程图。
图2是根据本公开又一个实施方式的叠字类问题处理方法的示意性流程图。
图3是根据本公开又一个实施方式的叠字类问题处理方法的示意性流程图。
图4是根据本公开又一个实施方式的叠字类问题处理方法的示意性流程图。
图5是根据本公开又一个实施方式的叠字类问题处理方法的示意性流程图。
图6是根据本公开一个实施方式的叠字类问题处理装置的示意性框图。
图7是根据本公开又一个实施方式的叠字类问题处理装置的示意性框图。
图8是根据本公开又一个实施方式的叠字类问题处理装置的示意性框图。
图9是根据本公开一个实施方式的电子设备的示意性视图。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。
图1示出了本公开一个实施方式的叠字类问题处理方法的示意性流程图,包括:S11、判断目标问题是否为叠字类问题;S12、如果目标问题是叠字类问题,则对目标问题进行标注,获得目标问题的重复个数和重复单字;如果目标问题不是叠字类问题,则不对目标问题进行标注;以及S13、基于目标问题的重复个数和重复单字,获得目标叠字。
本领域技术人员应当理解,叠字是指汉字中以多个完全相同的字组成的一类字(森、林、众、从,等等)。重复单字指的是叠字中重复的汉字。比如“森”是一个叠字,重复单字就是“木”,重复个数是“三”,即“森”是由三个“木”组成的;“众”是一个叠字,重复单字就是“人”,重复个数就是“三”,即“众”是由三个“人”组成的;“从”是一个叠字,重复单字就是“人”,重复个数就是“二”,即“从”是由二个“人”组成的。叠字类问题即能够从问题中解析出重复单字以及重复单字的重复个数,并且问答的答案是一个叠字的问题。比如,用户使用问答系统进行叠字类问题提问:“三个木是什么字”、“四个火焰的火组成的字是什么”,等等。
图2示出了本公开又一个实施方式的叠字类问题处理方法的示意性流程图,包括:S21、对目标问题进行叠字类问题概率分析和非叠字类问题概率分析,如果叠字类问题概率大于非叠字类问题概率,则将目标问题判断为叠字类问题;S22、如果目标问题是叠字类问题,则对目标问题进行标注,获得目标问题的重复个数和重复单字;如果目标问题不是叠字类问题,则不对目标问题进行标注;以及S23、以及基于目标问题的重复个数和重复单字,获得目标叠字。
在本实施方式中,判断目标问题是否为叠字类问题,通过以下优选方式实现:对目标问题进行叠字类问题概率分析和非叠字类问题概率分析,如果叠字类问题概率大于非叠字类问题概率,则将目标问题判断为叠字类问题。
对目标问题进行叠字类问题概率分析和非叠字类问题概率分析,优选地:将目标问题的汉字表达转换为数学表达,使用经过机器学习算法训练的二分类数学模型对目标问题的数学表达进行叠字类问题概率分析和非叠字类问题概率分析。
机器学习算法是可以从数据中学习并从中改进的算法,无需人工干预。学习任务可能包括将输入映射到输出,在未标记的数据中学习隐藏的结构,或者“基于实例的学习”,其中通过将新实例与来自存储在存储器中的训练数据的实例进行比较来为新实例生成类标签。
例如,首先使用机器学习算法训练一个二分类器数学模型,比如用3000个叠字类问题和3000个非叠字类问题训练一个二分类器数学模型,使得该二分类器模型对于输入的一个问题,进行问题的类型概率分析,给出该问题的类型概率。当输入一个问题时,首先二分类器把这个问题的汉字表达转换为数学表达,数学表达优选为数学向量,然后二分类器数学模型对这个数学表达进行处理,给出它是叠字类问题的概率和非叠字类问题的概率,比如叠字类问题概率是80%,非叠字类问题概率是20%,那么这个二分类器数学模型就输出“是”,即输入的问题是一个叠字类问题。
机器学习算法主要分为三大类:监督学习算法、无监督学习算法和强化学习算法。其中,监督学习算法使用标记的训练数据来学习从输入变量(X)到输出变量(Y)的映射函数,典型的监督学习算法例如线性回归算法、Logistic回归算法、CART算法、朴素贝叶斯算法等;无监督学习算法只有输入变量(X),但没有相应的输出变量,它使用无标签的训练数据来模拟数据的基本结构,典型的无监督学习算法例如Apriori算法、K-means算法、PCA算法等;强化学习算法按照给定条件,可分为基于模式的强化学习算法和无模式强化学习算法,以及主动强化学习算法和被动强化学习算法。
本实施方式中对使用的机器学习算法类型并不做特别限定,只要本领域技术人员能够将其用来训练二分类器数学模型,使得二分类器能够将输入的问题判断出是否是叠字类问题即可。本实施方式优选最大熵算法来训练二分类器数学模型。
图3示出了本公开又一个实施方式的叠字类问题处理方法的示意性流程图,包括:S31、判断目标问题是否为叠字类问题;S32、如果目标问题是叠字类问题,则判断目标问题中的每个汉字的类型并输出相应的类型标签,基于每个汉字的类型标签,提取出目标问题的重复个数的类型标签对应的汉字和目标问题的重复单字的类型标签对应的汉字;如果目标问题不是叠字类问题,则不对目标问题进行标注;以及S33、基于目标问题的重复个数和重复单字,获得目标叠字。
其中,判断目标问题是否为叠字类问题,可以采用图2对应的实施方式的判断方法,不再赘述。
本实施方式中,对目标问题进行标注,获得目标问题的重复个数和重复单字,优选为:判断目标问题中的每个汉字的类型并输出相应的类型标签,基于每个汉字的类型标签,提取出目标问题的重复个数的类型标签对应的汉字和目标问题的重复单字的类型标签对应的汉字。
本实施方式中,判断目标问题中的每个汉字的类型并输出相应的类型标签,优选为:将目标问题的汉字表达转换为数学表达,使用经过机器学习算法训练的标注数学模型对目标问题的数学表达进行标注,输出每个汉字的类型标签。
本实施方式中的标注模型同样需要机器学习算法进行训练,本实施方式优选CRF算法训练叠字类问题中重复个数和重复单字的标注模型,本领域技术人员应当理解,本实施方式对机器学习算法的类型不做特别限定,只要本领域技术人员能够将其用来训练标注模型,使其能够标注出叠字类问题中的重复个数和重复单字即可。
例如通过200个叠字类问题对标注模型进行训练,标注模型首先把叠字类问题的汉字表达转换为数学表达,数学表达优选为数学向量,基于这个数学表达,标注模型将叠字类问题例如“三个木是什么字”(这句话一共7个字)中的每个汉字进行类型判断,对于每个汉字的数学表达,标注模型输出一个类型标签,对于叠字类问题“三个木是什么字”,标注模型输出7个类型标签,第一个汉字是“三”,则输出的第一个类型标签是数字标签(number),第三个汉字是“木”,则输出的第三个类型标签是关键字标签(keyword),对于第二个汉字“个”、第四个汉字“是”、第五个汉字“什”、第六个汉字“么”以及第七个汉字“字”,它们既不是数字(重复个数),也不是关键字(重复单字),因此标注模型输出的第二个类型标签、第四个类型标签、第五个类型标签、第六个类型标签和第七个类型标签均为non(非重复个数且非重复单字),然后把第一个类型标签和第三个类型标签对应的汉字提取出来,在叠字知识库中查找。
上述实施方式中提到的汉字表达转换为数学表达属于本领域现有技术,在此不再赘述。
图4示出了本公开又一个实施方式的叠字类问题处理方法的示意性流程图,包括:S41、判断目标问题是否为叠字类问题;S42、如果目标问题是叠字类问题,则对目标问题进行标注,获得目标问题的重复个数和重复单字;如果目标问题不是叠字类问题,则不对目标问题进行标注;以及S43、在叠字知识库中查找目标问题的重复个数和重复单字,获得重复个数和重复单字对应的目标叠字。
其中,判断目标问题是否为叠字类问题,可以采用图2对应的实施方式的判断方法,不再赘述。对目标问题进行标注,获得目标问题的重复个数和重复单字,可以采用图3对应的实施方式的方法,不再赘述。
本实施方式中,基于目标问题的重复个数和重复单字,获得目标叠字,优选为:在叠字知识库中查找目标问题的重复个数和重复单字,获得重复个数和重复单字对应的目标叠字;叠字知识库将每个叠字存储为三要素表达:重复个数-重复单字-目标叠字。
叠字知识库的建立,优选地通过计算机程序从字典类的垂直网站中获取汉字中所有的叠字的信息,当然,由于汉字中叠字的数量并不是十分庞大,叠字知识库也可以通过计算机程序在本地建立。
例如通过计算机程序建立一个叠字文件,叠字文件的每行配置一个叠字,每个叠字用三个要素表达:重复个数-重复单字-目标叠字。比如森,在叠字文件中用“三-木-森”来表达。
图5示出了本公开又一个实施方式的叠字类问题处理方法的示意性流程图,包括:S51、判断目标问题是否为叠字类问题;S52、如果目标问题是叠字类问题,则对目标问题进行标注,获得目标问题的重复个数和重复单字;如果目标问题不是叠字类问题,则不对目标问题进行标注;S53、基于目标问题的重复个数和重复单字,获得目标叠字;以及S54、基于答案模板和目标叠字,生成目标答案。
其中,判断目标问题是否为叠字类问题,可以采用图2对应的实施方式的判断方法,不再赘述。对目标问题进行标注,获得目标问题的重复个数和重复单字,可以采用图3对应的实施方式的方法,不再赘述。基于目标问题的重复个数和重复单字,获得目标叠字,可以采用图4对应的实施方式的方法获得,不再赘述。
本实施方式中,基于目标问题的重复个数、重复单字、目标叠字以及答案模板,生成目标答案。例如目标问题是“三个木是什么字”,目标问题的重复个数是“三”,目标问题的重复单字是“木”,通过本实施方式的技术方案,获得了目标叠字“森”,答案模板例如“N个X组成的字是Y”,用“三”、“木”、“森”分别替换模板中的“N”、“X”、“Y”,生成的目标答案为“三个木组成的字是森”。
根据本公开的另一方面,本公开提供了一种叠字类问题处理装置。图6示出了本公开一个实施方式的叠字类问题处理装置100的示意性框图,叠字类问题处理装置100包括:判断装置101,判断装置101判断目标问题是否为叠字类问题;标注装置102,如果目标问题是叠字类问题,则标注装置102对目标问题进行标注,获得目标问题的重复个数和重复单字;如果目标问题不是叠字类问题,则标注装置102不对目标问题进行标注;以及获取装置103,获取装置103基于目标问题的重复个数和重复单字,获得目标叠字。
判断装置101可以通过计算机程序模块实现。判断装置101判断目标问题是否为叠字类问题,通过以下优选方式实现:判断装置101对目标问题进行叠字类问题概率分析和非叠字类问题概率分析,如果叠字类问题概率大于非叠字类问题概率,则将目标问题判断为叠字类问题。
判断装置101对目标问题进行叠字类问题概率分析和非叠字类问题概率分析,优选地:判断装置101将目标问题的汉字表达转换为数学表达,使用经过机器学习算法训练的判断装置101(例如二分类数学模型)对目标问题的数学表达进行叠字类问题概率分析和非叠字类问题概率分析。
标注装置102可以通过计算机程序模块实现。标注装置102对目标问题进行标注,获得目标问题的重复个数和重复单字,优选为:标注装置102判断目标问题中的每个汉字的类型并输出相应的类型标签,基于每个汉字的类型标签,标注装置102提取出目标问题的重复个数的类型标签对应的汉字和目标问题的重复单字的类型标签对应的汉字。
标注装置102判断目标问题中的每个汉字的类型并输出相应的类型标签,优选为:标注装置102将目标问题的汉字表达转换为数学表达,使用经过机器学习算法训练的标注装置102(例如标注数学模型)对目标问题的数学表达进行标注,输出每个汉字的类型标签。
获取装置103可以通过计算机程序模块实现。获取装置103基于目标问题的重复个数和重复单字,获得目标叠字,优选为:在叠字知识库中查找目标问题的重复个数和重复单字,获得重复个数和重复单字对应的目标叠字。
对于本实施方式中的判断装置101、标注装置102、获取装置103可以同时被包括在问答系统中;也可以是判断装置101、标注装置102、获取装置103中的一个或两个被包括在问答系统中;还可以是判断装置101、标注装置102、获取装置103均不被包括在问答系统中,但是由它们构成的叠字类问题处理装置100与问答系统通信连接。
问答系统(Question Answering System,QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。问答系统以自然语言理解技术为核心,使得计算机能够理解用户的谈话内容,实现人与计算机之间的有效交流沟通。例如在计算机客服系统中普遍采用的聊天机器人系统就是一种问答系统,它是一种通过自然语言技术,能够自动与用户对话的人工智能系统。现有技术中已经发展出多种类型的问答系统,在此不再赘述。本公开对叠字类问题处理方法和叠字类问题处理装置应用的问答系统的类型或种类不做特别限定。
图7示出了本公开又一个实施方式的叠字类问题处理装置200的示意性框图,叠字类问题处理装置200包括:判断装置201,判断装置201判断目标问题是否为叠字类问题;标注装置202,如果目标问题是叠字类问题,则标注装置202对目标问题进行标注,获得目标问题的重复个数和重复单字;如果目标问题不是叠字类问题,则标注装置202不对目标问题进行标注;获取装置203,获取装置203基于目标问题的重复个数和重复单字,获得目标叠字;叠字知识库204,获取装置203通过将目标问题的重复个数和重复单字与叠字知识库204中存储的重复个数和重复单字进行比对,确定出目标叠字。
与图6对应的叠字类问题处理装置100相同,本实施方式的叠字类问题处理装置200的判断装置201、标注装置202和获取装置203均可以通过计算机程序模块实现,不再赘述。
叠字知识库204可以通过计算机程序建立,叠字知识库204将每个叠字存储为三要素表达:重复个数-重复单字-目标叠字。
对于本实施方式中的判断装置201、标注装置202、获取装置203和叠字知识库204可以同时被包括在问答系统中;也可以是判断装置201、标注装置202、获取装置203和叠字知识库204中的一个或两个或三个被包括在问答系统中;还可以是判断装置201、标注装置202、获取装置203和叠字知识库204均不被包括在问答系统中,但是由它们构成的叠字类问题处理装置200与问答系统通信连接。
图8示出了本公开又一个实施方式的叠字类问题处理装置300的示意性框图,叠字类问题处理装置300包括:判断装置301,判断装置301判断目标问题是否为叠字类问题;标注装置302,如果目标问题是叠字类问题,则标注装置302对目标问题进行标注,获得目标问题的重复个数和重复单字;如果目标问题不是叠字类问题,则标注装置302不对目标问题进行标注;获取装置303,获取装置303基于目标问题的重复个数和重复单字,获得目标叠字;叠字知识库304,获取装置303通过将目标问题的重复个数和重复单字与叠字知识库304中存储的重复个数和重复单字进行比对,确定出目标叠字;答案模板305,答案模板305基于目标问题的重复个数、重复单字和目标叠字,生成目标答案。
答案模板305可以通过计算机程序建立。
对于本实施方式中的判断装置301、标注装置302、获取装置303、叠字知识库304、答案模板305可以同时被包括在问答系统中;也可以是判断装置301、标注装置302、获取装置303、叠字知识库304、答案模板305中的一个或两个或三个或四个被包括在问答系统中;还可以是判断装置301、标注装置302、获取装置303、叠字知识库304、答案模板305均不被包括在问答系统中,但是由它们构成的叠字类问题处理装置300与问答系统通信连接。
本公开还提供一种电子设备,如图9所示,该设备包括:通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信,进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。处理器3000执行所述计算机程序时实现上述实施方式中方法。所述存储器2000和处理器3000的数量可以为一个或多个。
存储器2000可以包括高速RAM存储器,也可以还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果通信接口1000、存储器2000及处理器3000独立实现,则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上,则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (4)

1.一种叠字类问题处理方法,其特征在于,包括:
将目标问题的汉字表达转换为数学表达,使用经过机器学习算法训练的二分类数学模型对所述目标问题的数学表达进行叠字类问题概率分析和非叠字类问题概率分析,如果叠字类问题概率大于非叠字类问题概率,则将所述目标问题判断为叠字类问题;
如果目标问题是叠字类问题,则将目标问题的汉字表达转换为数学表达,使用经过机器学习算法训练的标注数学模型对所述目标问题的数学表达进行标注,输出每个汉字的类型标签,基于每个汉字的类型标签,提取出目标问题的重复个数的类型标签对应的汉字和目标问题的重复单字的类型标签对应的汉字;如果目标问题不是叠字类问题,则不对目标问题进行标注;
在叠字知识库中查找所述目标问题的重复个数和重复单字,获得重复个数和重复单字对应的目标叠字;所述叠字知识库将每个叠字存储为三要素表达:重复个数-重复单字-目标叠字;
基于目标问题的重复个数、重复单字、目标叠字以及答案模板,生成目标答案。
2.一种叠字类问题处理装置,其特征在于,
判断装置,所述判断装置将目标问题的汉字表达转换为数学表达,使用经过机器学习算法训练的二分类数学模型对所述目标问题的数学表达进行叠字类问题概率分析和非叠字类问题概率分析,如果叠字类问题概率大于非叠字类问题概率,则将所述目标问题判断为叠字类问题;
标注装置,如果目标问题是叠字类问题,则将目标问题的汉字表达转换为数学表达,使用经过机器学习算法训练的标注数学模型对所述目标问题的数学表达进行标注,输出每个汉字的类型标签,基于每个汉字的类型标签,提取出目标问题的重复个数的类型标签对应的汉字和目标问题的重复单字的类型标签对应的汉字;如果目标问题不是叠字类问题,则所述标注装置不对目标问题进行标注;以及
获取装置,在叠字知识库中查找所述目标问题的重复个数和重复单字,获得重复个数和重复单字对应的目标叠字;所述叠字知识库将每个叠字存储为三要素表达:重复个数-重复单字-目标叠字;基于目标问题的重复个数、重复单字、目标叠字以及答案模板,生成目标答案。
3.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如权利要求1所述的方法。
4.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1所述的方法。
CN201910511968.3A 2019-06-13 2019-06-13 叠字类问题处理方法、处理装置、设备及存储介质 Active CN110222186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910511968.3A CN110222186B (zh) 2019-06-13 2019-06-13 叠字类问题处理方法、处理装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910511968.3A CN110222186B (zh) 2019-06-13 2019-06-13 叠字类问题处理方法、处理装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110222186A CN110222186A (zh) 2019-09-10
CN110222186B true CN110222186B (zh) 2021-06-29

Family

ID=67816915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910511968.3A Active CN110222186B (zh) 2019-06-13 2019-06-13 叠字类问题处理方法、处理装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110222186B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696524B (zh) * 2020-04-21 2023-02-14 厦门快商通科技股份有限公司 一种叠字语音识别方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1192014A (zh) * 1997-02-26 1998-09-02 蔡铭淙 以第二种文字检索以第一种文字建立之产业科技资料库的方法
CN101178654A (zh) * 2007-12-07 2008-05-14 无敌科技(西安)有限公司 罕用字的输入方法及其装置
CN102073736A (zh) * 2011-01-20 2011-05-25 百度在线网络技术(北京)有限公司 疑难字搜索方法及搜索系统
US11354565B2 (en) * 2017-03-15 2022-06-07 Salesforce.Com, Inc. Probability-based guider
CN108959252B (zh) * 2018-06-28 2022-02-08 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法

Also Published As

Publication number Publication date
CN110222186A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
US20200301954A1 (en) Reply information obtaining method and apparatus
US20180276525A1 (en) Method and neural network system for human-computer interaction, and user equipment
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN112364660B (zh) 语料文本处理方法、装置、计算机设备及存储介质
US11461613B2 (en) Method and apparatus for multi-document question answering
CN113704428B (zh) 智能问诊方法、装置、电子设备及存储介质
CN112131401B (zh) 一种概念知识图谱构建方法和装置
CN111898374A (zh) 文本识别方法、装置、存储介质和电子设备
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN111742322A (zh) 用于使用深度神经网络来进行独立于领域和语言的定义提取的系统和方法
CN111026840A (zh) 文本处理方法、装置、服务器和存储介质
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN112685550A (zh) 智能问答方法、装置、服务器及计算机可读存储介质
CN115714030A (zh) 一种基于疼痛感知和主动交互的医疗问答系统及方法
CN112749558A (zh) 一种目标内容获取方法、装置、计算机设备和存储介质
CN110222186B (zh) 叠字类问题处理方法、处理装置、设备及存储介质
CN109660621A (zh) 一种内容推送方法及服务设备
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
CN112884009A (zh) 一种分类模型训练方法及系统
CN116701604A (zh) 问答语料库的构建方法和装置、问答方法、设备及介质
CN115374255A (zh) 题目推荐方法、装置、设备及存储介质
CN112487184A (zh) 用户性格判定方法、装置、存储器和电子设备
CN113010664A (zh) 一种数据处理方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant