CN112434141A - 信息处理方法、装置、电子设备及存储介质 - Google Patents

信息处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112434141A
CN112434141A CN202011251914.7A CN202011251914A CN112434141A CN 112434141 A CN112434141 A CN 112434141A CN 202011251914 A CN202011251914 A CN 202011251914A CN 112434141 A CN112434141 A CN 112434141A
Authority
CN
China
Prior art keywords
corpus
processed
parameter
determining
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011251914.7A
Other languages
English (en)
Inventor
王阳阳
肖云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202011251914.7A priority Critical patent/CN112434141A/zh
Publication of CN112434141A publication Critical patent/CN112434141A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种信息处理方法、装置、移动终端及存储介质。其中,方法包括:获取至少一个第一待处理语料;所述至少一个第一待处理语料中的每个第一待处理语料中含有关于第一知识点的一个问句;基于所述至少一个第一待处理语料,确定第一参数;所述第一参数表征所述至少一个第一待处理语料中每两个第一待处理语料之间的相似度;根据所述第一参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料;所述第一目标语料用于被输出为所述第一知识点对应的标准问句。

Description

信息处理方法、装置、电子设备及存储介质
技术领域
本申请涉及智能客服领域,尤其涉及一种信息处理方法、装置、电子设备及存储介质。
背景技术
相关技术中,通过人工梳理得到知识点的标准问句,或者根据匹配度在候选问句中确定知识点的标准问句,该方式会降低确定标准问句的效率,出现标准问句不准确的情况,导致信息处理效率降低。
发明内容
有鉴于此,本申请实施例提供一种信息处理方法、装置、电子设备及存储介质,以至少解决相关技术出现的信息处理效率降低的问题。
本申请实施例的技术方案是这样实现的:
本申请实施例提供了一种信息处理方法,所述方法包括:
获取至少一个第一待处理语料;所述至少一个第一待处理语料中的每个第一待处理语料中含有关于第一知识点的一个问句;
基于所述至少一个第一待处理语料,确定第一参数;所述第一参数表征所述至少一个第一待处理语料中每两个第一待处理语料之间的相似度;
根据所述第一参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料;所述第一目标语料用于被输出为所述第一知识点对应的标准问句。
上述方案中,在基于所述至少一个第一待处理语料,确定第一参数时,包括:
基于所述至少一个第一待处理语料中每个第一待处理语料对应的句向量,确定第二参数;所述第二参数表征所述至少一个第一待处理语料中每两个第一待处理语料之间的夹角;
根据确定出的所有第二参数,确定所述第一参数。
上述方案中,在基于所述至少一个第一待处理语料,确定第一参数时,包括:
将所述至少一个第一待处理语料中的每两个第一待处理语料分别输入至设定算法模型中,基于所述设定算法模型,确定所述第一参数;其中,
所述设定算法模型用于确定两个语料之间的相似程度。
上述方案中,所述根据所述第一参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料,包括:
根据所述第一参数,确定所述第一待处理语料对应的第三参数;所述第三参数表征所述第一待处理语料成为目标语料的概率;
根据所述第三参数,按照第一设定规则对所述至少一个第一待处理语料进行排序,得到排序结果;
将所述排序结果中满足设定排序的第一待处理语料确定为所述第一目标语料。
上述方案中,所述方法还包括:
对所述符合设定条件的第一待处理语料进行矫正处理;所述设定条件表征语料中存在语法错误;
将矫正后的第一待处理语料存储到设定数据库中;所述设定数据库中存储的语料用于作为反问用户问句输出。
上述方案中,在基于所述至少一个第一待处理语料,确定第一参数时,包括:
对所述第一待处理语料进行数据处理,确定第二待处理语料;
基于所述第二待处理语料,确定第一参数;其中,所述数据处理包括以下至少一项:
对所述第一待处理语料进行去重处理;
滤除所述第一待处理语料中含有设定字符的问句;
将所述第一待处理语料转换为设定数据格式。
上述方案中,所述根据所述第二参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料,包括:
根据所述第一参数,在所述至少一个第二待处理语料中确定至少一个第二目标语料;
将所述至少一个第二目标语料中每个第二目标语料对应的第一待处理语料确定为所述第一目标语料。
本申请实施例还提供了一种信息处理装置,包括:
获取单元,用于获取至少一个第一待处理语料;所述至少一个第一待处理语料中的每个第一待处理语料中含有关于第一知识点的一个问句;
第一确定单元,用于基于所述至少一个第一待处理语料,确定第一参数;所述第一参数表征所述至少一个第一待处理语料中每两个第一待处理语料之间的相似度;
第二确定单元,用于根据所述第一参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料;所述第一目标语料用于被输出为所述第一知识点对应的标准问句。
本申请实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行上述任一方法的步骤。
本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
在本申请实施例中,获取至少一个第一待处理语料,至少一个第一待处理语料中的每个第一待处理语料中含有关于第一知识点的一个问句,基于至少一个第一待处理语料,确定第一参数,第一参数表征至少一个第一待处理语料中每两个第一待处理语料之间的相似度,根据第一参数,在至少一个第一待处理语料中确定至少一个第一目标语料,第一目标语料用于被输出为第一知识点对应的标准问句,能够根据每个知识点下的问句的相似度确定每个知识点对应的标准问句,从而提高了标准问句的准确度,并且提高了确定标准问句的效率。
附图说明
图1为本申请一实施例提供的信息处理方法的实现流程示意图;
图2为本申请一实施例提供的3×3相似度矩阵的示意图;
图3为本申请一实施例提供的信息处理方法的实现流程示意图;
图4为本申请又一实施例提供的信息处理方法的实现流程示意图;
图5为本申请又一实施例提供的信息处理方法的实现流程示意图;
图6为本申请又一实施例提供的信息处理方法的实现流程示意图;
图7为本申请又一实施例提供的信息处理方法的实现流程示意图;
图8为本申请一应用实施例提供的信息处理的流程示意图;
图9为本申请一实施例提供的信息处理装置的结构示意图;
图10为本申请一实施例提供电子设备的硬件组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本申请作进一步详细的说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
需要说明的是,本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
另外,在本申请实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例提供了一种信息处理方法,图1为本申请实施例的信息处理方法的一种流程示意图。如图1所示,所述方法包括:
S101:获取至少一个第一待处理语料;所述至少一个第一待处理语料中的每个第一待处理语料中含有关于第一知识点的一个问句。
这里,获取至少一个第一待处理语料,至少第一待处理语料中的每个第一待处理语料中含有关于第一知识点的一个问句,示例地,当用户通过咨询客服解决问题的时候,会出现咨询量过大或者咨询的问题简单的情况,在这种情况下,通过客服系统的自动回复可以快速地解决用户所提出的简单问题,或者,可以通过自动回复更加准确地获知用户的需求,而用户提出的问题可以涉及不同的知识点,对于购物软件中的客服系统,用户的提问可能会包括发票领域、快递领域等不同的问题,其中,发票领域为一个知识点,快递领域为一个知识点,每个知识点中含有不同的问句,示例地,对于快递领域的知识点,含有的问句可以为“商品发货时使用的是什么快递”。在实际应用中,可以通过客服系统建立的知识库获取至少一个第一待处理语料。
S102:基于所述至少一个第一待处理语料,确定第一参数;所述第一参数表征所述至少一个第一待处理语料中每两个第一待处理语料之间的相似度。
这里,基于至少一个第一待处理语料,确定第一参数,第一参数表征至少一个第一待处理语料中每两个待处理语料之间的相似度,实例地,当存在第一待处理语料A与第一待处理语料B,将第一待处理语料A与第一待处理语料B进行比较,从而能够确定表示第一待处理语料A与第一待处理语料B之间的相似度的第一参数。在实际应用中,可以通过一个矩阵记载第一参数,相似度矩阵R由m行和n列数据组成,其中,相似度矩阵中的m行和n列分别代表一个第一待处理语料,示例地,R11代表第一待处理语料A与第一待处理语料A之间的相似度,R12代表第一待处理语料A与第一待处理语料B之间的相似度。在实际应用中,相似度矩阵定义第一待处理语料A与第一待处理语料A自身的相似度为1,那么相似度矩阵中就会出现一个对角线为1的对角矩阵,其中,Rmn=Rnm,也就是问题m和问题n之间的第一参数与问题n和问题m之间的第一参数相等,如图2所示,图2示出了一个3×3相似度矩阵的示意图。
在一实施例中,如图3所示,在基于所述至少一个第一待处理语料,确定第一参数时,包括:
S301:基于所述至少一个第一待处理语料中每个第一待处理语料对应的句向量,确定第二参数;所述第二参数表征所述至少一个第一待处理语料中每两个第一待处理语料之间的夹角。
这里,基于至少一个第一待处理语料中每个第一待处理语料对应的句向量,确定第二参数,第二参数表征至少一个第一待处理语料中每两个第一待处理语料之间的夹角。其中,Bert算法是一种多用途的自然语言处理算法,采用公开中文数据训练集训练得到,将每个第一待处理语料对应的句向量输入到Bert算法中,Bert算法通过运算能产生指定维度的句向量,通过句向量能够表示对应的第一待处理语料。在得到每个第一待处理语料的句向量后,计算得到第二参数,第二参数可以通过每两个第一待处理语料对应的句向量的夹角余弦得到,示例地,假设存在两个第一待处理语料对应的句向量分别为A和B,那么第二参数
Figure BDA0002771861510000061
计算得到。
S302:根据确定出的所有第二参数,确定所述第一参数。
这里,在确定出至少一个待处理语料中每两个第一待处理语料之间的第二参数之后,根据第二参数确定第一参数,在实际应用中,第二参数的取值范围为-1~1,当第二参数为-1时,意味着两个句向量指向的方向相反,当第二参数为1时,意味着两个句向量指向的方向相同,当第二参数为0时,表示两个句向量之间是独立的,而在这之间的值则表示中度的相似性或者相异性,因此能够通过第二参数确定两个句向量之间的相似度,因此,在实际应用中,将第一参数为第二参数,示例地,当得到第一待处理语料A与第一待处理语料B之间的第二参数为1,则代表这两个待处理语料对应的句向量指向的方向相同,对应的第一参数为1。
在上述实施例中,基于至少一个第一待处理语料中每个第一待处理语料对应的句向量,确定第二参数,第二参数表征至少一个第一待处理语料中每两个第一待处理语料之间的夹角,根据确定出的所有第二参数,确定第一参数,从而能够准确地确定两个语料之间的相似度,并且通过算法确定两个语料之间的相似度,能够提高数据处理效率。
在一实施例中,在基于所述至少一个第一待处理语料,确定第一参数时,包括:
将所述至少一个第一待处理语料中的每两个第一待处理语料分别输入至设定算法模型中,基于所述设定算法模型,确定所述第一参数;其中,
所述设定算法模型用于确定两个语料之间的相似程度。
这里,在确定第一参数时,还可以将至少一个第一待处理语料中的每两个第一待处理语料分别输入至设定算法模型中,设定算法模型能够确定对输入的语料进行分析,设定算法模型是用于确定两个语料之间的相似程度,从而能够基于设定算法模型,确定第一参数。在实际应用中,设定算法模型可以为ESIM算法,ESIM算法是一种常用的短文本匹配算法,是采用公开数据集训练得到的,主要用来计算两个语料之间的相似程度,采用互信息方式得到第一参数。
在上述实施例中,将至少一个第一待处理语料中的每两个第一待处理语料分别输入至设定算法模型中,基于设定算法模型,确定第一参数,其中设定算法模型用于确定两个语料之间的相似程度,从而能够准确且快速地确定两个语料之间的相似度,提高了确定标准问句的处理效率。
在一实施例中,如图4所示,在基于所述至少一个第一待处理语料,确定第一参数时,包括:
S401:对所述第一待处理语料进行数据处理,确定第二待处理语料;其中,所述数据处理包括以下至少一项:
对所述第一待处理语料进行去重处理;
滤除所述第一待处理语料中含有设定字符的问句;
将所述第一待处理语料转换为设定数据格式。
这里,对获取的第一待处理语料进行数据处理,从而得到第二待处理语料,第二待处理语料为经过数据处理的第一待处理语料。其中,对第一待处理语料进行数据处理包括对第一待处理语料进行去重处理,在实际应用中,可以确定第一待处理语料中相同的问句,保留相同的问句中的其中一个。对第一待处理语料进行数据处理还包括滤除第一待处理语料中含有设定字符的问句,在实际应用中,采用敏感字符表筛选第一待处理语料中含有敏感字符的问句,敏感字符表中记载了不同的敏感字符。对第一待处理语料进行数据处理还包括将第一待处理语料转换为设定数据格式,其中,包括将第一待处理语料中的繁体字符转换为简体字符,将第一待处理语料中的大写英文字符转换为小写英文字符,将第一待处理语料中的全角字符转换为半角字符,去除第一待处理语料中的停用词。
S402:基于所述第二待处理语料,确定第一参数。
这里,根据第二待处理语料,确定第一参数,由于经过数据处理得到的第二待处理语料能够减轻确定标准问句过程中的计算量,从而提高处理效率。在实际应用中,存在不同的第一待处理语料A和第一待处理语料B,当经过数据处理得到第二待处理语料A与第二待处理语料B变成相同时,只需要对第二待处理语料A和第二待处理语料B中的一个语料进行计算。
在上述实施例中,对第一待处理语料进行数据处理,确定第二待处理语料,基于第二待处理语料,确定第一参数,其中,数据处理包括对第一待处理语料进行去重处理、滤除第一待处理语料中含有设定字符的问句、将第一待处理语料转换为设定数据格式中的至少一项,从而能够减少在确定标准问句的计算量,提高了确定标准问句的处理效率。
S103:根据所述第一参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料;所述第一目标语料用于被输出为所述第一知识点对应的标准问句。
这里,根据第一参数,通过每两个第一待处理语料之间的相似度,在至少一个第一待处理语料中确定至少一个第一目标语料,第一目标语料用于被输出为第一知识点对应的标准问句,在实际应用中,通常将相似度高的第一待处理语料确定为第一目标语料,标准问句对应一个标准答案,将用户输入的问题通过匹配,确定用户输入的问题对应的标准问题,通过标准问题确定回复的内容,因此标准问题的确定十分关键,标准问题可以影响回答用户问题的准确性,而通过待处理语料的相似度能够提高标准问题的准确性。
在上述实施例中,获取至少一个第一待处理语料,至少一个第一待处理语料中的每个第一待处理语料中含有关于第一知识点的一个问句,基于至少一个第一待处理语料,确定第一参数,第一参数表征至少一个第一待处理语料中每两个第一待处理语料之间的相似度,根据第一参数,在至少一个第一待处理语料中确定至少一个第一目标语料,第一目标语料用于被输出为第一知识点对应的标准问句,从而能够根据语料之间的相似度,准确地确定知识点对应的标准问句,同时提高了确定标准问题的效率。
在一实施例中,如图5所示,所述根据所述第一参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料,包括:
S501:根据所述第一参数,确定所述第一待处理语料对应的第三参数;所述第三参数表征所述第一待处理语料成为目标语料的概率。
这里,根据第一参数,确定第一待处理语料对应的第三参数,其中,第三参数表征第一待处理语料成为目标预料的概率,示例地,存在第一待处理语料A、第一待处理语料B、第一待处理语料C,对于第一待处理语料A而言,第一待处理语料A对应的第一参数分别表示第一待处理语料A与第一待处理语料B、C之间的相似度,因此,第一待处理语料A对应的第三参数是由第一待处理语料A对应的第一参数之和得到的,第一待处理语料A对应的第三参数=第一待处理语料A与第一待处理语料B之间的第一参数+第一待处理语料A与第一待处理语料C之间的第一参数。在实际应用中,当第一参数是通过相似度矩阵表示,那么对应的第三参数可以通过表达式
Figure BDA0002771861510000091
即第三参数为相似度矩阵第i行或者第j列元素之和,其中,scorei表示第一待处理语料i的第三参数,n表示第一代处理语料的数量。
S502:根据所述第三参数,按照第一设定规则对所述至少一个第一待处理语料进行排序,得到排序结果。
这里,在确定每个第一待处理语料对应的第三参数之后,根据第一设定规则对至少一个第一待处理语料进行排序,其中,第一设定规则是指根据第一带处理文本的第三参数,由高到低对第一带处理文本进行排序,生成对应的排序结果。
S503:将所述排序结果中满足设定排序的第一待处理语料确定为所述第一目标语料。
这里,将排序结果中满足设定排序的第一待处理语料确定为第一目标语料,示例地,可以取排序结果中top5的第一待处理语料确定为第一目标语料,从而能够在众多待处理语料中选择合适的目标语料。
在上述实施例中,根据第一参数,确定第一待处理语料对应的第三餐胡,第三参数表征第一待处理语料成为目标预料的概率,根据第三参数,按照第一设定规则对至少一个第一待处理语料进行排序,得到排序结果,将排序结果中满足设定排序的第一待处理语料确定为第一目标语料,从而能够根据语料的相似度,确定目标语料,提高了标准问句的质量。
在一实施例中,如图6所示,所述方法还包括:
S601:对所述符合设定条件的第一待处理语料进行矫正处理;所述设定条件表征语料中存在语法错误。
这里,对符合设定条件的第一待处理语料进行矫正处理,其中,符合设定条件的第一待处理语料表征第一待处理语料中存在语法错误,由于第一待处理语料中存在语法错误,导致第一待处理语料的表达存在问题,不能很好地被理解,在实际应用中,语法错误包括第一待处理语料中出现语序颠倒、拼写错误等。
S602:将矫正后的第一待处理语料存储到设定数据库中;所述设定数据库中存储的语料用于作为反问用户问句输出。
这里,将矫正后的第一待处理语料存储到设定数据库中,设定数据库中存储的是没有语法错误的语料,可以用于作为反问用户问句输出。在实际应用中,当用户使用客服系统输入语料时,当用户表述比较标准的时候,能够准确地识别用户的语料对应的知识点,从而能够给出准确的回答,当用户表述不清晰的时候,为了能够准确判断用户的意图,通常会针对用户输入的语料,给出相应的几个问题反问用户,用于反问用户的问句不仅要代表当前的知识点的标准问句,还需要让用户能够容易理解,因此,需要对存在语法错误的第一待处理语料进行矫正处理,从而能够提高标准问句的质量,还能提高与用户的沟通效率。
在上述实施例中,对符合设定条件的第一待处理语料进行矫正处理,设定条件表征预料中存在语法错误,将矫正后的第一待处理语料存储到设定数据库中,设定数据库中存储的语料用于作为反问用户问句输出,从而能够提高反问用户问句输出的质量,同时还能准确地确定用户的意图,并且提高了与用户的沟通效率。
在一实施例中,如图7所示,,所述根据所述第二参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料,包括:
S701:根据所述第一参数,在所述至少一个第二待处理语料中确定至少一个第二目标语料。
这里,根据第一参数,在至少一个第二待处理语料中确定至少一个第二目标语料,在实际应用中,由于对第一待处理语料进行数据处理,在后续计算每个问句之间的相似度以及确定标准问句的时候,是基于第二待处理语料上进行的,根据第一参数确定出的第二目标语料也是从至少一个第二待处理语料中确定得到的,在实际应用中,通常将相似度高的第二待处理语料确定为第二目标语料。
S702:将所述至少一个第二目标语料中每个第二目标语料对应的第一待处理语料确定为所述第一目标语料。
这里,第二目标语料实质上是从至少一个第二待处理语料中选择得到的,也就是第二目标语料是第一待处理语料经过数据处理后得到的语料,因此,需要将第二目标语料进行还原,将至少一个第二目标语料中每个第二目标语料对应的第一待处理语料确定为第一目标语料。在实际应用中,在对第一待处理语料进行数据处理的时候,可以建立第一待处理语料与第二待处理语料之间的对应关系,从而能够根据第一待处理语料与第二待处理语料之间的对应关系确定对应的第一目标语料。在实际应用中,可能出现第一待处理语料A与第一待处理语料B经过数据处理之后,得到相同的第二待处理语料C,当第二目标语料为第二待处理语料C的时候,所对应的第一目标语料可以为第一待处理语料A,也可以为第一待处理语料B。
在上述实施例中,根据第一参数,在至少一个第二待处理语料中确定至少一个第二目标语料,将至少一个第二目标语料中每个第二目标语料对应的第一待处理语料确定为第一目标语料,从而能够准确地在待处理语料中确定标准问句,提高了数据处理效率。
本申请还提供了一应用实施例,如图8所示,图8示出了一种信息处理的流程示意图。
S801:对存在语法错误的第一待处理语料进行矫正,在实际应用中,这一流程步骤为可选步骤。
S802:对至少一个第一待处理语料进行数据处理。
S803:计算至少一个第一待处理语料对应第一参数,根据第一参数生成相似度矩阵。
S804:根据相似度矩阵,确定第二参数。
S805:根据第二参数对至少一个第二待处理语料进行排序。
S806:将满足预设排序对应的第二待处理语料对应的第一待处理语料确定为目标语料。
为实现本申请实施例的方法,本申请实施例还提供了一种信息处理装置,如图9所示,包括:
获取单元901,用于获取至少一个第一待处理语料;所述至少一个第一待处理语料中的每个第一待处理语料中含有关于第一知识点的一个问句;
第一确定单元902,用于基于所述至少一个第一待处理语料,确定第一参数;所述第一参数表征所述至少一个第一待处理语料中每两个第一待处理语料之间的相似度;
第二确定单元903,用于根据所述第一参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料;所述第一目标语料用于被输出为所述第一知识点对应的标准问句。
在一实施例中,所述第一确定单元902在基于所述至少一个第一待处理语料,确定第一参数时,包括:
基于所述至少一个第一待处理语料中每个第一待处理语料对应的句向量,确定第二参数;所述第二参数表征所述至少一个第一待处理语料中每两个第一待处理语料之间的夹角;
根据确定出的所有第二参数,确定所述第一参数。
在一实施例中,所述第一确定单元902在基于所述至少一个第一待处理语料,确定第一参数时,包括:
将所述至少一个第一待处理语料中的每两个第一待处理语料分别输入至设定算法模型中,基于所述设定算法模型,确定所述第一参数;其中,
所述设定算法模型用于确定两个语料之间的相似程度。
在一实施例中,所述第二确定单元903根据所述第一参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料,包括:
根据所述第一参数,确定所述第一待处理语料对应的第三参数;所述第三参数表征所述第一待处理语料成为目标语料的概率;
根据所述第三参数,按照第一设定规则对所述至少一个第一待处理语料进行排序,得到排序结果;
将所述排序结果中满足设定排序的第一待处理语料确定为所述第一目标语料。
在一实施例中,所述装置还包括:
矫正单元,用于对所述符合设定条件的第一待处理语料进行矫正处理;所述设定条件表征语料中存在语法错误;
存储单元,用于将矫正后的第一待处理语料存储到设定数据库中;所述设定数据库中存储的语料用于作为反问用户问句输出。
在一实施例中,所述第一确定单元902在基于所述至少一个第一待处理语料,确定第一参数时,包括:
对所述第一待处理语料进行数据处理,确定第二待处理语料;
基于所述第二待处理语料,确定第一参数;其中,所述数据处理包括以下至少一项:
对所述第一待处理语料进行去重处理;
滤除所述第一待处理语料中含有设定字符的问句;
将所述第一待处理语料转换为设定数据格式。
在一实施例中,所述第二确定单元903根据所述第二参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料,包括:
根据所述第一参数,在所述至少一个第二待处理语料中确定至少一个第二目标语料;
将所述至少一个第二目标语料中每个第二目标语料对应的第一待处理语料确定为所述第一目标语料。
实际应用时,获取单元901、第一确定单元902、第二确定单元903可由信息处理装置中的处理器来实现。当然,处理器需要运行存储器中存储的程序来实现上述各程序模块的功能。
需要说明的是,上述图9实施例提供的信息处理装置在进行信息处理时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的信息处理装置与信息处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本申请实施例的方法,本申请实施例还提供了一种电子设备,图10为本申请实施例电子设备的硬件组成结构示意图,如图10所示,电子设备包括:
通信接口1,能够与其它设备比如网络设备等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的信息处理方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,电子设备中的各个组件通过总线系统4耦合在一起。可理解,总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图10中将各种总线都标为总线系统4。
本申请实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器3旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述方法的步骤。
处理器2执行所述程序时实现本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、终端和方法,可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种信息处理方法,其特征在于,包括:
获取至少一个第一待处理语料;所述至少一个第一待处理语料中的每个第一待处理语料中含有关于第一知识点的一个问句;
基于所述至少一个第一待处理语料,确定第一参数;所述第一参数表征所述至少一个第一待处理语料中每两个第一待处理语料之间的相似度;
根据所述第一参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料;所述第一目标语料用于被输出为所述第一知识点对应的标准问句。
2.根据权利要求1所述的信息处理方法,其特征在于,在基于所述至少一个第一待处理语料,确定第一参数时,包括:
基于所述至少一个第一待处理语料中每个第一待处理语料对应的句向量,确定第二参数;所述第二参数表征所述至少一个第一待处理语料中每两个第一待处理语料之间的夹角;
根据确定出的所有第二参数,确定所述第一参数。
3.根据权利要求1所述的信息处理方法,其特征在于,在基于所述至少一个第一待处理语料,确定第一参数时,包括:
将所述至少一个第一待处理语料中的每两个第一待处理语料分别输入至设定算法模型中,基于所述设定算法模型,确定所述第一参数;其中,
所述设定算法模型用于确定两个语料之间的相似程度。
4.根据权利要求1所述的信息处理方法,其特征在于,所述根据所述第一参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料,包括:
根据所述第一参数,确定所述第一待处理语料对应的第三参数;所述第三参数表征所述第一待处理语料成为目标语料的概率;
根据所述第三参数,按照第一设定规则对所述至少一个第一待处理语料进行排序,得到排序结果;
将所述排序结果中满足设定排序的第一待处理语料确定为所述第一目标语料。
5.根据权利要求1所述的信息处理方法,其特征在于,所述方法还包括:
对所述符合设定条件的第一待处理语料进行矫正处理;所述设定条件表征语料中存在语法错误;
将矫正后的第一待处理语料存储到设定数据库中;所述设定数据库中存储的语料用于作为反问用户问句输出。
6.根据权利要求1所述的信息处理方法,其特征在于,在基于所述至少一个第一待处理语料,确定第一参数时,包括:
对所述第一待处理语料进行数据处理,确定第二待处理语料;
基于所述第二待处理语料,确定第一参数;其中,所述数据处理包括以下至少一项:
对所述第一待处理语料进行去重处理;
滤除所述第一待处理语料中含有设定字符的问句;
将所述第一待处理语料转换为设定数据格式。
7.根据权利要求6所述的信息处理方法,其特征在于,所述根据所述第二参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料,包括:
根据所述第一参数,在所述至少一个第二待处理语料中确定至少一个第二目标语料;
将所述至少一个第二目标语料中每个第二目标语料对应的第一待处理语料确定为所述第一目标语料。
8.一种信息处理装置,其特征在于,包括:
获取单元,用于获取至少一个第一待处理语料;所述至少一个第一待处理语料中的每个第一待处理语料中含有关于第一知识点的一个问句;
第一确定单元,用于基于所述至少一个第一待处理语料,确定第一参数;所述第一参数表征所述至少一个第一待处理语料中每两个第一待处理语料之间的相似度;
第二确定单元,用于根据所述第一参数,在所述至少一个第一待处理语料中确定至少一个第一目标语料;所述第一目标语料用于被输出为所述第一知识点对应的标准问句。
9.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202011251914.7A 2020-11-11 2020-11-11 信息处理方法、装置、电子设备及存储介质 Pending CN112434141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011251914.7A CN112434141A (zh) 2020-11-11 2020-11-11 信息处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011251914.7A CN112434141A (zh) 2020-11-11 2020-11-11 信息处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112434141A true CN112434141A (zh) 2021-03-02

Family

ID=74699650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011251914.7A Pending CN112434141A (zh) 2020-11-11 2020-11-11 信息处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112434141A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956179A (zh) * 2016-05-30 2016-09-21 上海智臻智能网络科技股份有限公司 数据过滤方法及装置
WO2018120889A1 (zh) * 2016-12-28 2018-07-05 平安科技(深圳)有限公司 输入语句的纠错方法、装置、电子设备及介质
CN110019712A (zh) * 2017-12-07 2019-07-16 上海智臻智能网络科技股份有限公司 多意图查询方法和装置、计算机设备及计算机可读存储介质
WO2020135462A1 (zh) * 2018-12-27 2020-07-02 上海智臻智能网络科技股份有限公司 一种自动泛化方法及其装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956179A (zh) * 2016-05-30 2016-09-21 上海智臻智能网络科技股份有限公司 数据过滤方法及装置
WO2018120889A1 (zh) * 2016-12-28 2018-07-05 平安科技(深圳)有限公司 输入语句的纠错方法、装置、电子设备及介质
CN110019712A (zh) * 2017-12-07 2019-07-16 上海智臻智能网络科技股份有限公司 多意图查询方法和装置、计算机设备及计算机可读存储介质
WO2020135462A1 (zh) * 2018-12-27 2020-07-02 上海智臻智能网络科技股份有限公司 一种自动泛化方法及其装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BASTIAN HAARMANN; CLAUDIO MARTENS; HENNING PETZKA; GIULIO NAPOLITANO: "A Mighty Dataset for Stress-Testing Question Answering Systems", IEEE, 12 April 2018 (2018-04-12) *
夏远远;王宇;: "基于HNC理论的社区问答系统问句检索模型构建", 计算机应用与软件, no. 08, 12 August 2018 (2018-08-12) *
韩杰;杨洋;滕至阳;: "基于概念层次网络理论的问句分析研究", 计算机工程与设计, no. 10, 23 May 2007 (2007-05-23) *

Similar Documents

Publication Publication Date Title
US11636264B2 (en) Stylistic text rewriting for a target author
CN110377740B (zh) 情感极性分析方法、装置、电子设备及存储介质
CN110765763A (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
US11232263B2 (en) Generating summary content using supervised sentential extractive summarization
CN111597309A (zh) 相似企业推荐方法、装置、电子设备及介质
CN108664471B (zh) 文字识别纠错方法、装置、设备及计算机可读存储介质
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN111078842A (zh) 查询结果的确定方法、装置、服务器及存储介质
CN114861635B (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN110287286B (zh) 短文本相似度的确定方法、装置及存储介质
CN110188180B (zh) 相似问题的确定方法、装置、电子设备及可读存储介质
CN115392235A (zh) 字符匹配方法、装置、电子设备及可读存储介质
TW202123026A (zh) 資料歸檔方法、裝置、電腦裝置及存儲介質
CN117235546B (zh) 多版本文件比对方法、装置、系统及存储介质
US20230177266A1 (en) Sentence extracting device and sentence extracting method
CN111738009A (zh) 实体词标签生成方法、装置、计算机设备和可读存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
US20230186212A1 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
CN111753062A (zh) 一种会话应答方案确定方法、装置、设备及介质
CN116484829A (zh) 用于信息处理的方法和设备
CN112434141A (zh) 信息处理方法、装置、电子设备及存储介质
CN112541069A (zh) 一种结合关键词的文本匹配方法、系统、终端及存储介质
CN111949767A (zh) 一种文本关键词的查找方法、装置、设备和存储介质
KR101559129B1 (ko) 영단어 추천 방법 및 장치
CN116416629B (zh) 电子档案生成方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination