CN113468176B

CN113468176B - 信息录入方法和装置、电子设备、计算机可读存储介质

Info

Publication number: CN113468176B
Application number: CN202110748343.6A
Authority: CN
Inventors: 赵廷辉; 邵世臣; 李永恒; 孙钰清; 徐飞; 方承志
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-09-26
Anticipated expiration: 2041-06-30
Also published as: CN113468176A; US20220156611A1

Abstract

本公开提供了一种信息录入方法和装置，涉及图像处理、数据库、自然语言处理、深度学习等技术领域。具体实现方案为：对获取的待识别素材进行聚类，得到问答素材；对问答素材进行语料处理，得到问答语料对，问答语料对包括至少一个问题以及各个问题的答案；对问答语料对进行题目判定，得到至少一个题目以及与各个题目对应的答案；将各题目以及与各题目对应的答案在题库中进行结构化存储。该实施方式自动地丰富了题库内容。

Description

信息录入方法和装置、电子设备、计算机可读存储介质

技术领域

本公开涉及计算技术领域，具体涉及图像处理、数据库、自然语言处理、深度学习等技术领域，尤其涉及一种信息录入方法和装置、电子设备、计算机可读介质以及计算机程序产品。

背景技术

文库大学生搜题系统基于文库内海量题库、高相关性多特征匹配策略，为大学生提供找答案。大学生题库内容的丰富程度决定了匹配策略的召回率及准确率。

发明内容

提供了一种信息录入方法和装置、电子设备、计算机可读介质以及计算机程序产品。

根据第一方面，提供了一种信息录入方法，该方法包括：对获取的待识别素材进行聚类，得到问答素材；对问答素材进行语料处理，得到问答语料对，问答语料对包括至少一个问题以及各个问题的答案；对问答语料对进行题目判定，得到至少一个题目以及与各个题目对应的答案；将各题目以及与各题目对应的答案在题库中进行结构化存储。

根据第二方面，提供了一种信息录入装置，该装置包括：聚类单元，被配置成对获取的待识别素材进行聚类，得到问答素材；处理单元，被配置成对问答素材进行语料处理，得到问答语料对，问答语料对包括至少一个问题以及各个问题的答案；判定单元，被配置成对问答语料对进行题目判定，得到至少一个题目以及与各个题目对应的答案；存储单元，被配置成将各题目以及与各题目对应的答案在题库中进行结构化存储。

根据第三方面，提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面任一实现方式描述的方法。

本公开的实施例提供的信息录入方法和装置，首先，对获取的待识别素材进行聚类，得到问答素材；其次，对问答素材进行语料处理，得到问答语料对，问答语料对包括至少一个问题以及各个问题的答案；再次，对问答语料对进行题目判定，得到至少一个题目以及与各个题目对应的答案；最后，将各题目以及与各题目对应的答案在题库中进行结构化存储，由此，通过对问答语料的题目判定，得到了问答语料中的题目和答案，实现了自动化扩充题库内容，提高了题目搜索的召回率和准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开信息录入方法的一个实施例的流程图；

图2是根据本公开信息录入方法的另一个实施例的流程图；

图3是本公开实施例中对问答语料对进行题目判定的方法的实施例的流程图；

图4是根据本公开信息录入装置的实施例的结构示意图；

图5是用来实现本公开实施例的信息录入方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了根据本公开信息录入方法的一个实施例的流程100，上述信息录入方法包括以下步骤：

步骤101，对获取的待识别素材进行聚类，得到问答素材。

本实施例中，信息录入方法运行于其上的执行主体可以实时从提问社区获取待识别素材，提问社区是不同用户提出问题并解答问题的场所，通过从提问社区获取问答素材进行处理，可以自动补充题库中题目以及题目的答案。

待识别素材可以是用户针对当前学业阶段(例如，大学、中学、小学等)和当前专业类型(科学、数学、化学等)提问的一些问题以及对这些问题的回答，待识别素材可以是由用户上传的信息，待识别素材的表现形式不限于图像、文本、语音中任意一种或多种等。

本实施例中，对待识别素材进行聚类包括：对于待识别素材中的问题，毫无疑问的具有已回答的答案，可以将该问题和该问题的答案作为问答素材。对获取的待识别素材进行聚类还可以包括：聚集待识别素材中具有相同类型(例如，同为大学数据类型)的问题和答案，并且选择具有明确答案的问题作为问答素材。

可选地，为了保证提取的问答素材可靠性，对于待识别素材中的问题，且通过用户已明确表达该问题具有正确的答案，也可以作为问答素材。基于当前的问题，当提问社区中具有与当前问题的答案的肯定的回复，确定当前的问题已被明确表达具有正确的答案。例如，问题为：紫背天葵是什么东西，答案为：紫背天葵是一种比较宝贵的绿色植物，还能够协助医治病症，追评：确定答案正确。本例子中，追评是用户对问题的答案明确表达答案正确的内容。

可选地，为了更清楚的表征问题和问题对应的回答，在待识别素材中还可以包括与问题以及问题对应的回答对应的属性信息，该属性信息用于标识问题或答案产生所涉及的地址、时间、人物等信息。当对待识别素材进行聚类之后，相应地通过识别待识别素材的属性信息，确定问答素材的属性信息，通过问答素材的属性信息可以有效地解释问答素材。

步骤102，对问答素材进行语料处理，得到问答语料对。

其中，问答语料对包括至少一个问题以及各个问题的答案。

本实施例中，对问答素材进行语料处理包括：基于当前问答素材表现形式不同(例如，语音、图像)，通过语料处理可以将问答素材处理为文本形式的问答语料对，即问答语料对为具有问题和答案的文本。

可选地，在问答素材包括文本时，对问答素材进行语料处理包括：根据问答素材所属的专业类型，可以对问答素材进行与该专业类型相关自然语言处理之后，得到问答语料对。例如，问答素材所属的专业类型为化学，对问答素材进行语料处理包括：识别问答素材中的化学元素的生僻字，并对生僻字进行语义识别，确定识别问答素材的语义，基于问答素材的语义得到问答语料对。

需要说明的是，基于获取的待识别素材行业或者类型，在将问答素材处理为问答语料对时，需要考虑待识别素材所在的行业特殊需求，例如，待识别素材出自大学生数学论坛，基于大学数学中公式的特殊性，在对问答素材进行语料处理时，需要通过模糊匹配的方式映射到大学生常用的公式表达式，以识别问答素材出现的公式中的特殊字符。

可选地，当对问答素材进行语料处理之后，可以通过问答素材的属性信息，确定问答语料对的属性信息，本实施例中，问答语料对的属性信息是与问答语料对中的问题以及问题的答案对应的地址、时间、人物等信息。而通过问答语料对的属性信息可以有效地解释问答语料对，为问答语料对提供详细、全面的信息内容。

步骤103，对问答语料对进行题目判定，得到至少一个题目以及与各个题目对应的答案。

本实施例中，问答语料对中具有至少一个问题，该至少一个问题中的各个问题可以是题目，也可以不是题目；为了得到问答语料中的题目，需要对问答语料中进行题目判定，以选择出问答语料中的题目以及各个题目的答案。

对问答语料对进行题目判定可以包括：将问答语料对进行分词、自然语言处理，得到问答语料中各个词或字的语义，将各个词或字的语义与预设的题目共性特征进行相似度判断，当相似度高于相似度阈值时(90％)，确定当前问答语料对中的问题为题目；当相似度小于或等于相似度阈值时，确定当前问答语料对中的问题不是题目。

预设的题目共性特征通过以下方式获取：对当前学业阶段、当前专业类型中大量已标注的问答文本(人工标注且区分题目和非题目的问答文本，其中题目问答文本为正样本、非题目的问答文本为负样本)进行分词、采用自然语言处理进行语义分析，采集大量正负样本的特征，动态挖掘题目类的问答文本的共性特征属性，区分非题目的特征属性，提取题目类的共性特征作为预设的题目共性特征。

可选地，当得到至少一个题目以及与各个题目对应的答案之后，可以通过问答语料对的属性信息确定题目以及题目的答案的属性信息，本实施例中，题目以及题目的答案的属性信息是与问答语料对中的题目以及题目的答案对应的地址、时间、人物等信息。而通过题目以及题目的答案的属性信息可以有效地解释题目以及题目的答案，为生成信息较全面的题库信息提供全面的依据。

步骤104，将各题目以及与各题目对应的答案在题库中进行结构化存储。

本实施例中，题目以及题目对应的答案在题库中的结构化由题库中单元的存储结构确定，在题库中每个单元设置有不同字段，题目与题目对应的答案分属于单元的不同字段对应的内容。

作为一个示例，单元的存储结构包括：题目字段名、题目内容；答案字段名，答案内容。通过题库中该单元的存储结构可以将题目以及题目对应的答案存储在题库中。

可选地，题库的单元的存储结构还可以是：题目字段名、题目内容；答案字段名，答案内容；提问者字段名，提问者昵称；回答者字段名，回答者昵称。本示例中，通过在题库的单元中设置提问者和回答者可以明确表示题目对应的作者。

可选地，题库的单元的存储结构还可以是：题目字段名、题目内容；答案字段名，答案内容；提问者字段名，提问者名称；回答者字段名，回答者名称；时间字段名，提问时间、回答时间的时间值。本示例中，通过在题库的单元中设置提问者的提问时间和回答者的回答时间可以明确表示题目和题目对应的答案生成的时间。

可选地，题库的单元的存储结构还可以是：题目字段名、题目内容；答案字段名，答案内容；提问者字段名，提问者名称；回答者字段名，回答者名称；时间字段名，提问时间、回答时间的时间值；地址字段名，提供地址、回答地址的地址值。本示例中，通过在题库的单元中设置提问者的地址和回答者的地址可以明确表示题目和题目对应的答案生成的具体位置，为题目进行可靠得溯源提供依据。

本实施例提供的信息录入方法可以自动化获取题目，并采用获取的题目对大学生题库进行自动、有效地扩充，对提升大学生题目搜索的召回与准确性有较大帮助，扩大了题库的题目数量与种类。

本公开的实施例提供的信息录入方法，首先，对获取的待识别素材进行聚类，得到问答素材；其次，对问答素材进行语料处理，得到问答语料对，问答语料对包括至少一个问题以及各个问题的答案；再次，对问答语料对进行题目判定，得到至少一个题目以及与各个题目对应的答案；最后，将各题目以及与各题目对应的答案在题库中进行结构化存储，由此，通过对问答语料的题目判定，得到了问答语料中的题目和答案，实现了自动化扩充题库内容，提高了题目搜索的召回率和准确率。

图2示出了根据本公开信息录入方法的另一个实施例的流程200，上述信息录入方法包括以下步骤：

步骤201，对获取的待识别素材进行聚类，得到问答素材。

步骤202，对问答素材进行语料处理，得到问答语料对。

其中，问答语料对包括至少一个问题以及各个问题的答案。

步骤203，对问答语料对进行题目判定，得到至少一个题目以及与各个题目对应的答案。

步骤204，将各题目以及与各题目对应的答案在题库中进行结构化存储。

应当理解，上述步骤201-步骤204中的操作和特征，分别与步骤101-104中的操作和特征相对应，因此，上述在步骤101-104中对于操作和特征的描述，同样适用于步骤201-步骤204，在此不再赘述。

步骤205，对题库中的题目进行处理，得到检索题目。

本实施例中，检索题目是对题库中的题目进行关键词处理之后，可以存入检索库的题目，对题库中的题目进行处理包括：对题库中的题目去噪音、分词、归一化中的一项或多项处理，得到检索题目。例如，题库中的题目为：三角形的面积计算公式；通过对该题目进行处理，得到的检索题目为：三角形-面积。

步骤206，获取搜索信息。

本实施例中，搜索信息是用于搜索题库中相关内容的信息，搜索信息可以包括：题目、答案、时间、地址、人物等。

步骤207，基于检索题目，在题库中搜索与搜索信息对应的题目和答案。

本实施例中，检索题目是与题库中题目相关的信息，例如，检索题目是题库中题目的关键词，而通过将检索题目与搜索信息进行相似度比较，可以在题库中搜索出与搜索信息对应的题目和答案。当搜索信息的题目与检索题目相似度大于相似度阈值(90％)时，题库中与检索题目对应的题目及题目的答案为搜索信息对应的题目和答案。

可选地，上述方法还包括：对题库中题目对应的时间进行排序，得到排序时间，将排序时间作为检索时间；当搜索信息包括搜索时间时，将搜索时间与检索时间中的时间进行对比，使结果时间段内对应的题目和答案作为搜索信息对应的题目和答案，其中，结果时间段为相对搜索时间的预设时间段，例如，搜索时间为2月1日，则结果时间段为：1月31日至2月2日之间的时间段。

本公开的实施例提供的信息录入方法，通过对题库中的题目进行处理得到检索题目，保证了信息检索的可靠性；获取搜索信息，基于检索题目在题库中搜索与搜索信息对应的题目和答案，可以根据用户需求快速可持续的在扩充后的题库中检索用户的搜索信息对应的题目和答案。

在本实施例的一些可选实现方式中，对获取待识别素材进行聚类，得到问答素材包括：获取待识别素材；聚类待识别素材中符合问答条件的待识别素材，得到问答素材。

本实施例中，待识别素材可以包括多种类型的信息，比如，诗词、散文、题目等。为了获取待素材中相同类型的、且与题库相关的问题和答案，需要设置问答条件选取得到问答素材。

问答条件为聚类待识别素材的条件，也是得到问答素材的条件，该问答条件可以包括：确定不同学业阶段、专业类型的问题和答案的条件，例如，问答条件为与大学英语相关问题且该问题具有明确的答案。可选地，根据题库的类型(题库针对的学业阶段、专业类型等)，该问答条件还可以是：确定不同时间段所有专业的问题和答案，且各个问题具有明确的答案。

本可选实现方式中，通过设置问答条件提取问答素材，为题库中自动录入题目和题目的答案提供了可靠的资料基础，提高了题目录入的可靠性。

在本实施例的一些可选实现方式中，待识别素材包括待识别图像和待识别文本；聚类待识别素材中符合问答条件的待识别素材包括：聚类待识别图像中符合图像问答条件的待识别图像，得到问答图像；聚类待识别文本中符合文本问答条件的待识别文本，得到问答文本；组合问答图像和问答文本，得到问答素材。

本可选实现方式中，图像问答条件是针对图像形式的待识别素材设置的条件。文本问答条件是针对文本形式的待识别素材设置的条件。需要说明的是，图像问答条件和文本问答条件在对待识别素材进行格式转化之后可以相同，例如，图像问答条件在对待识别图像中文字进行识别之后等于文本问答条件。

本可选实现方式中，在待识别素材包括待识别图像和待识别文本时，通过分别对待识别图像和待识别文本进行聚类，得到问答素材，保证了问答素材得到的全面性。

在本实施例的一些可选实现方式中，问答素材包括：问答图像，对问答素材进行语料处理，得到问答语料对，包括：去除问答图像中区域噪声，得到无噪图像；响应于无噪图像中的图像信息具有倾斜角度，对无噪图像的图像信息进行矫正，得到矫正图像；依次对矫正图像进行版面切割、字符识别、字符排序，得到问答语料对。

本可选实现方式中，去除问答图像中区域噪声包括：去除问答图像内模糊区域的噪音、问题和答案中的“空格”、去除问答图像中无法识别的图案等。

本可选实现方式中，对无噪图像的图像信息进行矫正包括：响应于检测到无噪图像中图像信息具有倾斜角度，对无噪图像进行较正，以使无噪图像中图像信息倾斜角为零，得到矫正图像。

本可选实现方式中，对矫正图像(或者未校正的无噪图像)依次进行版面切割、字符识别、字符排序包括：

1)版面切割，将矫正图像(或者未校正的无噪图像)分为段落，且切割为不同行；其中将矫正图像(或者未校正的无噪图像)出现的公式单独切割。

2)字符识别，通过特征提取的方式，识别不同行的文字；不同行中出现的公式通过模糊匹配的方式映射到公式表达式库，包括希腊字母、数理符号等；公式内所有符号优先判定为数理符号，例如切割出的公式段落出现的“’”，应判定为导数符号，而非单引号。

3)字符排序，将切分段落和顺序按照原无噪图像保持不变，公式单独显示。

本可选实现方式中，通过对问答图像中的噪声、校正无噪图像中的图像信息的角度、对校正图像进行版面切割、字符识别、字符排序，可以有效、准确地识别问答图像中的图像信息的内容，保证了问答语料对提取的可靠性。

在本实施例的一些可选实现方式中，将各题目以及与各题目对应的答案在题库中进行结构化存储，包括：对各题目以及与各题目对应的答案进行结构化处理，得到待存题目答案组；将待存题目答案组与题库的题目答案组进行比对；将与题库的题目答案组不相同的待存题目答案组存入题库。

本可选实现方式中，题库中的信息存储具有题库的存储结构，将判别得到的题目与各题目对应的答案进行结构化处理，可以使判别得到的题目与各题目对应的答案转化为与题库的存储结构相同，例如，题库中的题目格式为：题目字段，题目内容；答案字段，答案内容。将判别得到题目进行与题库中信息相同结构化转换，以便于与题库中的内容进行比对，去除判别得到的题目与题库中的内容相同的判别得到的题目，保证题库中内容不会重复存储。

本可选实现方式中，通过去除待存题目答案组中与题库的题目答案组相同的待存题目答案组，达到去重的效果，保证了题库中不会出现重复的题目和答案，保证了题库信息的有效性。

问答语料对中可能存在大量干扰信息，而无效的问题并不能作为题目存储到题库内，需搭建题目识别模型，识别用户提问的问题是否为题目，并过滤无效信息。在本实施例的一些可选实现方式中，如图3，示出了对问答语料对进行题目判定的流程图300，上述对问答素材进行语料处理的方法包括以下步骤：

步骤301，选取问答语料对中的问题。

本实施例中，通过问答语料对中的一些与问题相关的关键词，例如“公式是”、“是什么”等可以快速确定问答语料对中的问题。

步骤302，将选取的问题输入训练完成的题目识别模型，得到题目识别模型输出的至少一个题目。

其中，题目识别模型用于对输入的问题进行题目判断。

本可选实现方式中，题目识别模型进行题目判定的原理为：获取大量已标注的问题，确定问题属于题目的共性属性信息，以共性属性信息作为标准，采用大量的训练样本对题目识别模型进行训练，直至题目识别模型满足训练完成条件，得到训练完成的题目识别模型，此时训练完成的题目识别模型以题目的共性属性信息为判断准则对输入的问题进行判定，输出该问题属于题目的置信度。其中，模型具体地判定过程为：判断与“题目”类内容特征相似度，高于一定阈值判定为题目，低于阈值为非题目。

具体地，题目的共性属性信息的得到过程如下：对大量的已有标注的问答文本进行分词、采用自然语言处理模型对分词后的问题进行语义分析，确定正负样本的特征，动态挖掘“题目”类文本的共性特征属性，区分“非题目”类文本的各自独有特征属性，以提取的“题目”类文本的共性特征作为判定标准。

具体地，采用大量的训练样本对题目识别模型进行训练的训练过程如下：

1)收集大量包含问题文本作为训练样本。

2)对训练样本中的各个词语进行题目特征标注，构建数据集。比如，问题的一些词语属于提供共性特征属性，或者问题的一些词语属于独有特征属性。

3)采用诸如卷积神经网络等模型结构构建题目识别模型，然后利用收集的训练样本对题目识别模型进行训练。在训练过程中，可以根据题目识别模型对训练样本的词语的特征属性的检测结果与训练样本的特征属性的标注信息之间的差异确定题目识别模型的误差，利用误差反向传播的方式迭代调整关题目识别模型的参数，使其误差逐步缩小。在题目识别模型的误差收敛至一定的范围内或迭代的次数达到预设的次数阈值时可以停止调整参数，得到训练完成的题目识别模型。

需要说明的是，在将选取的问题输入训练完成的题目识别模型之前，需要对选取的问题依次进行过滤、分词、去除停用词等处理。其中，对选取的问题进行过滤包括：将选取的问题中小于设定个(例如5个)字符的问题，作为无效问题自动过滤。对选取的问题进行分词包括：将对选取的问题拆解为词语。去除停用词包括：建立停用词库，过滤分词后的问题中的无限词，如题号、题目类型前缀等。

可选地，在得到训练完成的题目识别模型之后，可以通过人工测评，不断优化题目识别模型，并调整各特征阈值。题目识别模型搭建完成后，不断通过人工标注反哺题目判断模型，优化题目各特征的判断阈值，可保证题目判断准确性。

步骤303，针对至少一个题目中的每个题目，从问答语料对中选出该题目的答案。

本可选实现方式中，由于问答语料对中已经选出问题，则问答语料对剩余的内容即为问题对应的答案。

本可选实现方式中，通过题目识别模型对问答语料对中的问题进行识别，得到问答语料对中的问题是否属于题目的结果，题目识别模型可以基于人工标注反哺进行优化，提高了题目判定的精度，保证了从问答语料对中获取的题目的可靠性。

进一步参考图4，作为对上述各图所示方法的实现，本公开提供了信息录入装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可应用于各种电子设备中。

如图4所示，本实施例提供的信息录入装置400包括：聚类单元401，处理单元402，判定单元403，存储单元404。其中，上述聚类单元401，可以被配置成对获取的待识别素材进行聚类，得到问答素材。上述处理单元402，可以被配置成对问答素材进行语料处理，得到问答语料对，问答语料对包括至少一个问题以及各个问题的答案。上述判定单元403，可以被配置成对问答语料对进行题目判定，得到至少一个题目以及与各个题目对应的答案。上述存储单元404，可以被配置成将各题目以及与各题目对应的答案在题库中进行结构化存储。

在本实施例中，信息录入装置400中：聚类单元401，处理单元402，判定单元403，存储单元404的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述装置400还包括：检索单元(图中未示出)、获取单元(图中未示出)、搜索单元(图中未示出)。其中，上述检索单元，可以被配置成对题库中的题目进行处理，得到检索题目。上述获取单元，可以被配置成获取搜索信息。上述搜索单元，可以被配置成基于检索题目，在题库中搜索与搜索信息对应的题目和答案。

在本实施例的一些可选的实现方式中，上述聚类单元401包括：获取模块(图中未示出)、聚类模块(图中未示出)。其中，上述获取模块，可以被配置成获取待识别素材。上述聚类模块，可以被配置成聚类待识别素材中符合问答条件的待识别素材，得到问答素材。

在本实施例的一些可选的实现方式中，上述待识别素材包括待识别图像和待识别文本；聚类模块包括：图像聚类子模块(图中未示出)、文本聚类子模块(图中未示出)、组合子模块(图中未示出)。其中，上述图像聚类子模块，可以被配置成聚类待识别图像中符合图像问答条件的待识别图像，得到问答图像。上述文本聚类子模块，可以被配置成聚类待识别文本中符合文本问答条件的待识别文本，得到问答文本。上述组合子模块，可以被配置成组合问答图像和问答文本，得到问答素材。

在本实施例的一些可选的实现方式中，上述问答素材包括：问答图像，上述处理单元402包括：去除模块(图中未示出)、校正模块(图中未示出)、处理模块(图中未示出)。其中，上述去除模块，可以被配置成去除问答图像中区域噪声，得到无噪图像。上述校正模块，可以被配置成响应于无噪图像中的图像信息具有倾斜角度，对无噪图像的图像信息进行矫正，得到矫正图像。上述处理模块，可以被配置成依次对矫正图像进行版面切割、字符识别、字符排序，得到问答语料对。

在本实施例的一些可选实现方式中，上述判定单元403包括：选取模块(图中未示出)、输入模块(图中未示出)、选出模块(图中未示出)。其中，上述选取模块，可以被配置成选取问答语料对中的问题。上述输入模块，可以被配置成将选取的问题输入训练完成的题目识别模型，得到题目识别模型输出的至少一个题目；题目识别模型用于对输入的问题进行题目判断。上述选出模块，可以被配置成针对至少一个题目中的每个题目，从问答语料对中选出该题目的答案。

在本实施例的一些可选的实现方式中，存储单元404包括：格式化模块(图中未示出)、比对模块(图中未示出)、去重模块(图中未示出)。其中，上述格式化模块，可以被配置成对各题目以及与各题目对应的答案进行结构化处理，得到待存题目答案组。上述比对模块，可以被配置成将待存题目答案组与题库的题目答案组进行比对。上述去重模块，可以被配置成将与题库的题目答案组不相同的待存题目答案组存入题库。

本公开的实施例提供的信息录入装置，首先，聚类单元401对获取的待识别素材进行聚类，得到问答素材；其次，处理单元402对问答素材进行语料处理，得到问答语料对，问答语料对包括至少一个问题以及各个问题的答案；再次，判定单元403对问答语料对进行题目判定，得到至少一个题目以及与各个题目对应的答案；最后，存储单元404将各题目以及与各题目对应的答案在题库中进行结构化存储，由此，通过对问答语料的题目判定，得到了问答语料中的题目和答案，实现了自动化扩充题库内容，提高了题目搜索的召回率和准确率。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如信息录入方法。例如，在一些实施例中，信息录入方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的信息录入方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行信息录入方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程信息录入装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种信息录入方法，所述方法包括：

对从提问社区获取的待识别素材进行聚类，得到问答素材；

对所述问答素材进行语料处理，得到问答语料对，所述问答语料对包括至少一个问题以及各个问题的答案；

对所述问答语料对进行题目判定，得到至少一个题目以及与各个题目对应的答案；所述对所述问答语料对进行题目判定包括：将问答语料对进行分词、自然语言处理，得到问答语料中各个词或字的语义，将各个词或字的语义与预设的题目共性特征进行相似度判断，当相似度高于相似度阈值时，确定当前问答语料对中的问题为题目；预设的题目共性特征通过提取人工标注且区分题目和非题目的问答文本的共性特征得到；

将各题目以及与各题目对应的答案在题库中进行结构化存储，以通过对所述问答素材进行处理，自动补充所述题库中题目以及题目的答案。

2.根据权利要求1所述的方法，所述方法还包括：

对所述题库中的题目进行处理，得到检索题目；

获取搜索信息；

基于所述检索题目，在所述题库中搜索与所述搜索信息对应的题目和答案。

3.根据权利要求1或2所述的方法，其中，所述对获取待识别素材进行聚类，得到问答素材包括：

获取待识别素材；

聚类所述待识别素材中符合问答条件的待识别素材，得到问答素材。

4.根据权利要求3所述的方法，其中，所述待识别素材包括待识别图像和待识别文本；所述聚类所述待识别素材中符合问答条件的待识别素材包括：

聚类所述待识别图像中符合图像问答条件的待识别图像，得到问答图像；

聚类所述待识别文本中符合文本问答条件的待识别文本，得到问答文本；

组合所述问答图像和所述问答文本，得到所述问答素材。

5.根据权利要求1或2所述的方法，其中，所述问答素材包括：问答图像，所述对所述问答素材进行语料处理，得到问答语料对，包括：

去除所述问答图像中区域噪声，得到无噪图像；

响应于所述无噪图像中的图像信息具有倾斜角度，对所述无噪图像的图像信息进行矫正，得到矫正图像；

依次对所述矫正图像进行版面切割、字符识别、字符排序，得到问答语料对。

6.根据权利要求1或2所述的方法，其中，所述对所述问答语料对进行题目判定，得到至少一个题目以及与各个题目对应的答案，包括：

选取所述问答语料对中的问题；

将选取的问题输入训练完成的题目识别模型，得到所述题目识别模型输出的至少一个题目；所述题目识别模型用于对输入的问题进行题目判断；

针对至少一个题目中的每个题目，从所述问答语料对中选出该题目的答案。

7.根据权利要求1或2所述的方法，其中，所述将各题目以及与各题目对应的答案在题库中进行结构化存储，包括：

对各题目以及与各题目对应的答案进行结构化处理，得到待存题目答案组；

将待存题目答案组与题库的题目答案组进行比对；

将与所述题库的题目答案组不相同的待存题目答案组存入所述题库。

8.一种信息录入装置，所述装置包括：

聚类单元，被配置成对从提问社区获取的待识别素材进行聚类，得到问答素材；

处理单元，被配置成对所述问答素材进行语料处理，得到问答语料对，所述问答语料对包括至少一个问题以及各个问题的答案；

判定单元，被配置成对所述问答语料对进行题目判定，得到至少一个题目以及与各个题目对应的答案；所述判定单元进一步被配置成：将问答语料对进行分词、自然语言处理，得到问答语料中各个词或字的语义，将各个词或字的语义与预设的题目共性特征进行相似度判断，当相似度高于相似度阈值时，确定当前问答语料对中的问题为题目；预设的题目共性特征通过提取人工标注且区分题目和非题目的问答文本的共性特征得到；

存储单元，被配置成将各题目以及与各题目对应的答案在题库中进行结构化存储，以通过对所述问答素材进行处理，自动补充所述题库中题目以及题目的答案。

9.根据权利要求8所述的装置，所述装置还包括：

检索单元，被配置成对所述题库中的题目进行处理，得到检索题目；

获取单元，被配置成获取搜索信息；

搜索单元，被配置成基于所述检索题目，在所述题库中搜索与所述搜索信息对应的题目和答案。

10.根据权利要求8或9所述的装置，其中，所述聚类单元包括：

获取模块，被配置成获取待识别素材；

聚类模块，被配置成聚类所述待识别素材中符合问答条件的待识别素材，得到问答素材。

11.根据权利要求10所述的装置，其中，所述待识别素材包括待识别图像和待识别文本；所述聚类模块包括：

图像聚类子模块，被配置成聚类所述待识别图像中符合图像问答条件的待识别图像，得到问答图像；

文本聚类子模块，被配置成聚类所述待识别文本中符合文本问答条件的待识别文本，得到问答文本；

组合子模块，被配置成组合所述问答图像和所述问答文本，得到所述问答素材。

12.根据权利要求8或9所述的装置，其中，所述问答素材包括：问答图像，所述处理单元包括：

去除模块，被配置成去除所述问答图像中区域噪声，得到无噪图像；

校正模块，被配置成响应于所述无噪图像中的图像信息具有倾斜角度，对所述无噪图像的图像信息进行矫正，得到矫正图像；

处理模块，被配置成依次对所述矫正图像进行版面切割、字符识别、字符排序，得到问答语料对。

13.根据权利要求8或9所述的装置，其中，所述判定单元包括：

选取模块，被配置成选取所述问答语料对中的问题；

输入模块，被配置成将选取的问题输入训练完成的题目识别模型，得到所述题目识别模型输出的至少一个题目；所述题目识别模型用于对输入的问题进行题目判断；

选出模块，被配置成针对至少一个题目中的每个题目，从所述问答语料对中选出该题目的答案。

14.根据权利要求8或9所述的装置，其中，所述存储单元包括：

格式化模块，被配置成对各题目以及与各题目对应的答案进行结构化处理，得到待存题目答案组；

比对模块，被配置成将待存题目答案组与题库的题目答案组进行比对；

去重模块，被配置成将与所述题库的题目答案组不相同的待存题目答案组存入所述题库。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。