CN115269800A - 信息处理方法、装置、计算机可读存储介质及电子设备 - Google Patents
信息处理方法、装置、计算机可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN115269800A CN115269800A CN202210916930.6A CN202210916930A CN115269800A CN 115269800 A CN115269800 A CN 115269800A CN 202210916930 A CN202210916930 A CN 202210916930A CN 115269800 A CN115269800 A CN 115269800A
- Authority
- CN
- China
- Prior art keywords
- target
- question
- information
- content
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种信息处理方法、装置、计算机可读存储介质及电子设备。涉及人工智能领域,该方法包括:获取目标对象请求问答的请求信息,其中,请求信息至少包括问答内容;从多个语料库中确定与问答内容对应的至少一个目标语料,其中,目标语料包括第一目标问题,及与目标问题对应的第一目标答复内容;基于第一目标答复内容,生成与第一目标问题对应的错误答复内容;基于至少一个目标语料以及与至少一个目标语料对应的错误答复内容,生成目标对象待答复的问答信息。本发明解决了现有技术中依赖于人工生成问答信息造成的工作成本高的技术问题。
Description
技术领域
本发明涉及人工智能领域,具体而言,涉及一种信息处理方法、装置、计算机可读存储介质及电子设备。
背景技术
知识活动(如:党建活动)是很多企业工作中必不可少的一部分,但是需要大量的人力物力。例如,在相关知识活动中,需要有特定的工作人员负责参与活动人员所提出的问答请求(如:考试请求),为其制作对应的问答信息(如:考试试卷),以供参与活动人员进行答题,从而便于提高参与活动人员对相关内容的了解程度,有利于普及相关知识。然而,依赖于人工生成前述的问答信息,不仅生成的问答信息的内容单一,而且还会占用工作人员大量时间和精力,从而导致工作成本高的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种信息处理方法、装置、计算机可读存储介质及电子设备,以至少解决现有技术中依赖于人工生成问答信息造成的工作成本高的技术问题。
根据本发明实施例的一个方面,提供了一种信息处理方法,包括:获取目标对象请求问答的请求信息,其中,请求信息至少包括问答内容;从多个语料库中确定与问答内容对应的至少一个目标语料,其中,目标语料包括第一目标问题,及与目标问题对应的第一目标答复内容;基于第一目标答复内容,生成与第一目标问题对应的错误答复内容;基于至少一个目标语料以及与至少一个目标语料对应的错误答复内容,生成目标对象待答复的问答信息。
进一步地,信息处理方法还包括:基于第一目标答复内容生成第二目标答复内容,其中,第一目标答复内容与第二目标答复内容的相似度大于第一预设阈值;对第二目标答复内容进行分词处理,得到多个分词,并确定至少一个分词在第二目标答复内容中的重要度;基于至少一个分词在第二目标答复内容中的重要度,从多个分词中筛选出第一目标分词;将第二目标答复内容中的第一目标分词替换为第二目标分词,得到替换后的第二目标答复内容,其中,第一目标分词与第二目标分词的相似度大于第二预设阈值;确定替换后的第二目标答复内容为错误答复内容。
进一步地,信息处理方法还包括:在基于至少一个目标语料以及与至少一个目标语料对应的错误答复内容,生成目标对象待答复的问答信息之后,获取目标对象答复问答信息的答复结果;基于答复结果,确定目标对象对应的得分。
进一步地,信息处理方法还包括:从多个语料库中确定与问答内容对应的至少一个目标语句;生成与每个目标语句对应的第一目标问题和第一目标答复内容;基于与每个目标语句对应的第一目标问题和第一目标答复内容,确定每个目标语句所对应的目标语料。
进一步地,信息处理方法还包括:在从多个语料库中确定与问答内容对应的至少一个目标语料之前,从目标网站实时爬取预设领域的目标信息;确定与目标信息对应的至少一个信息类别;基于目标信息的信息内容,生成与至少一个信息类别对应的语料;基于语料对应的信息类别,将语料存储至多个语料库中的第一目标语料库,其中,不同的语料库与不同的信息类别相对应。
进一步地,信息处理方法还包括以下至少之一:基于信息内容生成初始问题和初始答句,并确定初始问题和初始答句为与第一信息类别对应的语料;基于信息内容确定目标文件,并确定目标文件的文件内容为与第二信息类别对应的语料,其中,目标文件为与信息内容中存在的文件名称所对应的文件;基于信息内容确定目标实体关系信息,并确定目标实体关系信息为与第三信息类别对应的语料,其中,目标实体关系信息至少表征信息内容中存在的多个对象之间的关联关系。
进一步地,信息处理方法还包括:在基于语料对应的信息类别,将语料存储至多个语料库中的第一目标语料库之后,获取第二目标问题,其中,第二目标问题的问题内容的所属领域为预设领域;确定第二目标问题对应的信息类别;基于第二目标问题的信息类别,从多个语料库中确定第二目标语料库;从第一目标语料库中确定第二目标问题对应的第二目标答复内容。
根据本发明实施例的另一方面,还提供了一种信息处理装置,包括:获取模块,用于获取目标对象请求问答的请求信息,其中,请求信息至少包括问答内容;确定模块,用于从多个语料库中确定与问答内容对应的至少一个目标语料,其中,目标语料包括第一目标问题,及与目标问题对应的第一目标答复内容;第一生成模块,用于基于第一目标答复内容,生成与第一目标问题对应的错误答复内容;第二生成模块,用于基于至少一个目标语料以及与至少一个目标语料对应的错误答复内容,生成目标对象待答复的问答信息。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的信息处理方法。
根据本发明实施例的另一方面,还提供了一种电子设备,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的信息处理方法。
在本发明实施例中,采用基于目标对象请求问答的问答内容,生成目标对象待答复的问答信息的方式,通过获取目标对象请求问答的请求信息,然后从多个语料库中确定与问答内容对应的至少一个目标语料,接着基于第一目标答复内容,生成与第一目标问题对应的错误答复内容,从而基于至少一个目标语料以及与至少一个目标语料对应的错误答复内容,生成目标对象待答复的问答信息。其中,请求信息至少包括问答内容,目标语料包括第一目标问题,及与目标问题对应的第一目标答复内容。
在上述过程中,通过从多个语料库中确定与问答内容对应的至少一个目标语料,实现了对用于反馈给目标对象的问答信息中问题与正确答案的自动确定,通过基于第一目标答复内容,生成错误答复内容,实现了对用于反馈给目标对象的问答信息中问题所对应的错误答案的自动确定,从而可以实现对选择题的自动生成,并可以组合成问答信息以供目标对象答复,进而避免了通过人工生成问答信息中的相关问题、正常答案以及错误答案导致工作成本高的问题,实现了对工作成本的有效降低。
由此可见,本申请所提供的方案达到了基于目标对象请求问答的问答内容,生成目标对象待答复的问答信息的目的,从而实现了降低工作成本的技术效果,进而解决了现有技术中依赖于人工生成问答信息造成的工作成本高的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的信息处理方法的示意图;
图2是根据本发明实施例的一种可选的问答系统的示意图;
图3是根据本发明实施例的一种可选的信息处理装置的示意图;
图4是根据本发明实施例的一种可选的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
实施例1
根据本发明实施例,提供了一种信息处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的信息处理方法的示意图,如图1所示,该方法包括如下步骤:
步骤S101,获取目标对象请求问答的请求信息,其中,请求信息至少包括问答内容。
在步骤S101中,可以通过电子设备、应用系统、服务器等装置获取目标对象请求问答的请求信息。在本实施例中,通过一种可选的问答系统获取目标对象请求问答的请求信息。其中,目标对象可以是相关企业或其它组织(如:学校、社团等)中的参与相关知识活动的人员。
可选的,如图2所示,问答系统包括问答装置。问答装置可以通过前端交互界面,获取目标对象以语音、文字、图片等形式输入的初始信息,并在信息的信息形式为语音或图片时,对该信息进行转换以提取出文字内容,从而得到转换后的初始信息。之后,问答装置可以在确定初始信息或转换后的初始信息中存在预设关键词时,确定前述的初始信息为目标对象请求问答的请求信息。其中,请求信息可以是目标对象请求进行考试的请求信息,前述的预设关键词可以是“考试”,请求信息可以至少包括目标对象所期望的考试内容。例如,当用户输入的信息为“考试四项规定”时,问答装置确定获取到目标对象请求考试(也即请求问答)的请求信息,且考试内容(也即问答内容)为四项规定。
步骤S102,从多个语料库中确定与问答内容对应的至少一个目标语料,其中,目标语料包括第一目标问题,及与目标问题对应的第一目标答复内容。
在步骤S102中,当确定了所获取的信息为目标对象请求问答的请求信息后,可以通过问答系统中如图2所示的出题装置确定前述的目标语料。可选的,首先对问答系统中如图2所示的多个语料库进行说明。在本实施例中,语料库为用于存储相关数据的数据库,前述的多个语料库中可以包括叙事类语料库、知识手册类语料库以及实体关系类语料库。其中,在叙事类语料库中,可以存储第一信息类别的语料,且第一信息类别的语料可以以“问题-答案”格式存储,例如:某一语料为“xx会议的方针是什么”-“xx会议提出了以下几点方针。。。”;在知识手册类语料库中,可以存储第二信息类别的语料,且第二信息类别的语料可以以“文本文件”格式存储,以实现对相关条文文件的记录,例如:某一语料为《XXX规定》的具体内容;在实体关系类语料库中,可以存储第三信息类别的语料,且第三信息类别的语料可以以实体关系格式存储,以实现对多个对象之间的关联关系的记录,例如:某一语料为张三(实体)---上级(关系)---李四(实体)。
进一步地,出题装置可以从多个语料库中检索出存在问答内容(如前述的四项规定)的语料作为初始语料,或是从多个语料库中检索出存在与问答内容相似的内容的语料作为初始语料。可选的,当出题装置检索出在叙事类语料库中存在初始语料时,由于叙事类语料库中的语料以“问题-答案(也即答复内容)”格式存储,因此,可以直接将该初始语料中的问题作为第一目标问题,将该初始语料中的答案作为第一目标答复内容,即将该初始语料直接作为目标语料。而当出题装置检索出在知识手册类语料库以及实体关系类语料库中存在初始语料时,由于知识手册类语料库以及实体关系类语料库中的语料以非“问题-答案”格式存储,因此,可以基于该初始语料的语料内容,生成对应的“问题-答案”格式的语料,从而将生成得到的问题作为第一目标问题,将生成得到的答案(也即答复内容)作为第一目标答复内容,进而确定目标语料。
需要说明的是,通过从多个语料库中确定与问答内容对应的至少一个目标语料,实现了对用于反馈给目标对象的问答信息中问题与正确答案的自动确定,避免了人工生成造成的工作成本高的问题。
步骤S103,基于第一目标答复内容,生成与第一目标问题对应的错误答复内容。
在步骤S103中,出题装置可以对某一目标语料中的问题对应的答案(即前述的第一目标答复内容)进行语义分析,并将该答案中的一些词汇替换成其它词汇,以生成与该目标语料中的问题对应的错误答复内容。可选的,出题装置也可以对某一目标语料中的问题对应的答案进行语义分析,并生成与该答案相似的语句,之后,将与该答案相似的语句中的一些词汇替换成其它词汇,以生成与该目标语料中的问题对应的错误答复内容。
需要说明的是,通过基于第一目标答复内容,生成错误答复内容,实现了对用于反馈给目标对象的问答信息中问题所对应的错误答案的自动确定,从而便于与问题和正确答案相结合确定选择题,以供目标对象参与答复。此外,还保证了生成的错误答复内容的合理性。
步骤S104,基于至少一个目标语料以及与至少一个目标语料对应的错误答复内容,生成目标对象待答复的问答信息。
在步骤S104中,出题装置可以将每个目标语料以及与该目标语料对应的错误答复内容进行结合,以生成与该目标语料对应的选择题,从而得到多个选择题,进而可以将多个选择题进行组合,以生成目标对象待答复的问答信息。
进一步地,出题装置可以通过前端交互界面,将问答信息以文字试卷的形式展示给目标对象,以供目标对象作答,出题装置也可以通过前端交互界面,将问答信息以语音问答的形式与目标对象进行交互,以供目标对象作答。
需要说明的是,基于至少一个目标语料以及与至少一个目标语料对应的错误答复内容,可以实现对选择题的自动生成,从而便于组合成问答信息以供目标对象答复。
基于上述步骤S101至步骤S104所限定的方案,可以获知,在本发明实施例中,采用基于目标对象请求问答的问答内容,生成目标对象待答复的问答信息的方式,通过获取目标对象请求问答的请求信息,然后从多个语料库中确定与问答内容对应的至少一个目标语料,接着基于第一目标答复内容,生成与第一目标问题对应的错误答复内容,从而基于至少一个目标语料以及与至少一个目标语料对应的错误答复内容,生成目标对象待答复的问答信息。其中,请求信息至少包括问答内容,目标语料包括第一目标问题,及与目标问题对应的第一目标答复内容。
容易注意到的是,在上述过程中,通过从多个语料库中确定与问答内容对应的至少一个目标语料,实现了对用于反馈给目标对象的问答信息中问题与正确答案的自动确定,通过基于第一目标答复内容,生成错误答复内容,实现了对用于反馈给目标对象的问答信息中问题所对应的错误答案的自动确定,从而可以实现对选择题的自动生成,并可以组合成问答信息以供目标对象答复,进而避免了通过人工生成问答信息中的相关问题、正常答案以及错误答案导致工作成本高的问题,实现了对工作成本的有效降低。
由此可见,本申请所提供的方案达到了基于目标对象请求问答的问答内容,生成目标对象待答复的问答信息的目的,从而实现了降低工作成本的技术效果,进而解决了现有技术中依赖于人工生成问答信息造成的工作成本高的技术问题。
在本实施例中,以本申请所提供的方法应用在党建活动的场景为例,对本申请进行说明。
在一种可选的实施例中,首先对前述的语料库的生成/扩充方法进行说明。可选的,在从多个语料库中确定与问答内容对应的至少一个目标语料之前,问答系统可以从目标网站实时爬取预设领域的目标信息,然后确定与目标信息对应的至少一个信息类别,从而基于目标信息的信息内容,生成与至少一个信息类别对应的语料,进而基于语料对应的信息类别,将语料存储至多个语料库中的第一目标语料库,其中,不同的语料库与不同的信息类别相对应。
可选的,如图2所示,问答系统还包括用于语料获取的爬虫装置。爬虫装置可以实时监控“中国新闻网”等党政网站,以从前述网站中实时抓取与党建领域(即前述的预设领域)相关的目标信息,其中,目标信息可以是政务时事、党建材料、方针、条文等信息。之后,爬虫装置可以将将抓取到的目标信息发送至问答系统中如图2所示的语料提取装置。
可选的,语料提取装置用于将获取到的目标信息进行加工提取,以形成信息纯度较高的语料,并存入语料库中。具体地,语料提取装置可以对目标信息先进行数据清洗,以过滤掉广告信息、网站宣传信息等与党建领域无关的内容。
之后,语料提取装置可以基于清洗后的目标信息中的信息内容,确定与目标信息对应的至少一个信息类别,其中,信息类别可以是“叙事类”、“知识手册类”以及“实体关系类”。
再进一步地,语料提取装置可以基于不同信息类别所对应的信息格式,对目标信息的信息内容进行对应的处理,如,当确定信息内容中存在与“叙事类”对应的内容时,将该与“叙事类”对应的内容转换成“问题-答案”的信息格式,以生成与“叙事类”对应的语料。并可以将该与“叙事类”对应的语料存储到第一目标语料库中,其中,第一目标语料库对应的信息类别与该语料对应的信息类别相同。即当语料为“叙事类”对应的语料时,第一目标语料库为叙事类语料库。
需要说明的是,通过从目标网站实时爬取信息,保证了语料库内容的时效性。通过基于目标信息的信息类别生成对应的语料,便于问答系统在回答相关人员的问题时,更好的确定用于回复相关人员的语句。
在一种可选的实施例中,语料提取装置可以基于以下至少之一的方法,实现基于目标信息的信息内容,生成与至少一个信息类别对应的语料:基于信息内容生成初始问题和初始答句,并确定初始问题和初始答句为与第一信息类别对应的语料;基于信息内容确定目标文件,并确定目标文件的文件内容为与第二信息类别对应的语料,其中,目标文件为与信息内容中存在的文件名称所对应的文件;基于信息内容确定目标实体关系信息,并确定目标实体关系信息为与第三信息类别对应的语料,其中,目标实体关系信息至少表征信息内容中存在的多个对象之间的关联关系。
可选的,例如,当语料提取装置所获取的信息内容为一篇新闻时,语料提取装置可以从该新闻中提取出第一信息内容,其中,第一信息内容可以为陈述句,如:“某领导人在某会议上提出了某项方针”。之后,可以基于语义分析,提取出第一信息内容中的关键信息,并基于该关键信息生成对应的问题(即前述的初始问题)以及对应的答案(即前述的初始答句),如:初始问题为“xx会议的方针是什么”,初始答句为“xx会议提出了以下几点方针。。。”。同时将初始问题与初始答句确定为“xx会议的方针是什么”-“xx会议提出了以下几点方针。。。”的信息格式,从而作为与前述的第一信息类别对应的语料,其中,第一信息类别即为叙事类。
可选的,语料提取装置还可以从前述的新闻中提取出第二信息内容,其中,第二信息内容可以是带有预设符号的文字,如,带有“《》”的文字,具体可以是某项最新颁布的条文文件《XXX政策》,其中,“XXX政策”即为前述的第二信息内容,也即前述的文件名称。之后,语料提取装置可以通过爬取装置从互联网中获取到与第二信息内容对应的文件,并将其作为目标文件,同时,将目标文件的文件内容确定为“文本文件”的信息格式,从而作为与前述的第二信息类别对应的语料,其中,第二信息类别即为知识手册类。
可选的,语料提取装置还可以从前述的新闻中提取出第三信息内容,其中,第三信息内容可以是表征对象关系的语句,如,“任命张三担任某职位,李四担任其下属”。其中,前述的对象可以是个人,也可以是岗位。之后,语料提取装置可以从第三信息内容中提取出实体与关系,也即提取出前述的目标实体关系信息。例如,“张三”,“李四”为自然人实体,“某职位”为岗位实体,张三”与“李四”的关系为上级,“张三”与“某职位”的关系为担任等。同时可以将前述提取出的信息确定为实体关系的信息格式,如:张三(实体)---上级(关系)---李四(实体),从而作为与前述的第三信息类别对应的语料,其中,第三信息类别即为实体关系类。
需要说明的是,通过基于信息内容确定不同信息类别对应的语料,且语料的信息格式各不相同,实现了对语料库的有效丰富,进而便于提高了本申请的实用性。
在一种可选的实施例中,当实现了对语料库中语料的生成/扩充后,在实际应用过程中的从多个语料库中确定与问答内容对应的至少一个目标语料的过程中,问答系统可以从多个语料库中确定与问答内容对应的至少一个目标语句,然后生成与每个目标语句对应的第一目标问题和第一目标答复内容,从而基于与每个目标语句对应的第一目标问题和第一目标答复内容,确定每个目标语句所对应的目标语料。
可选的,当出题装置检索出在知识手册类语料库以及实体关系类语料库中存在前述的初始语料(也即目标语句)时,问答系统可以基于每个初始语料的语料内容,生成与该初始语料对应的“问题-答案”格式的语料,从而将生成得到的问题作为第一目标问题,将生成得到的答案(也即答复内容)作为第一目标答复内容,进而确定目标语料。
需要说明的是,通过基于目标语句生成对应的问题和答句,保证了所生成的目标语料的逻辑性,也即保证了其合理性。
在一种可选的实施例中,在基于第一目标答复内容,生成与第一目标问题对应的错误答复内容的过程中,问答系统可以基于第一目标答复内容生成第二目标答复内容,然后对第二目标答复内容进行分词处理,得到多个分词,并确定至少一个分词在第二目标答复内容中的重要度,并基于至少一个分词在第二目标答复内容中的重要度,从多个分词中筛选出第一目标分词,从而将第二目标答复内容中的第一目标分词替换为第二目标分词,得到替换后的第二目标答复内容,并确定替换后的第二目标答复内容为错误答复内容。其中,第一目标答复内容与第二目标答复内容的相似度大于第一预设阈值,第一目标分词与第二目标分词的相似度大于第二预设阈值。
可选的,出题装置可以通过预先训练好的Simbert,生成与前述确定的第一目标答复内容相似的第二目标答复内容。其中,Simbert为一种用于生成相似语句的深度神经网络模型,如:向Simbert输入“xx地区天气怎么样”,Simbert输出为“xx地区天气如何”,“xx地区温度是多少”等相似的语句。
之后,出题装置可以采用Jieba工具对第二目标答复内容进行分词处理,得到多个分词,并基于bm25方法确定多个分词中每个分词的词语权重,以确定每个分词在第二目标答复内容中的重要度。其中,前述的Jieba为一种中文分词工具,如:向Jieba输入“我爱北京天安门”,Jieba输出为“我/代词”,“爱/动词”,“北京/地点名词”,“天安门/名词”。BM25为一种在指定数据集中,计算词语权重的方式,且出现频率越低的词语,分数越高,如词语“电子能”的bm25分数比词语“所以”分值高。
进一步地,当确定了每个分词的分词权重后,出题装置可以基于预设的筛选标准(如:选取出重要度排前5的分词),从多个分词中筛选出第一目标分词。然后将第二目标答复内容中的第一目标分词替换为与其相似的其它词语(即前述的第二目标分词),从而将替换后得到的第二目标答复内容确定为前述的错误答复内容。
可选的,对于前述确定的多个目标语料中每个目标语料的第一目标答复内容,都可基于前述方法生成对应的错误答复内容,从而可以得到包含多个选择题的问答信息。
需要说明的是,通过确定与第一目标答复内容相似的第二目标答复内容,并对第二目标答复内容中的部分分词进行替换,一方面,便于快速准确的生成错误答复内容,另一方面,保证了生成的错误答复内容的合理性,避免在同一选择题中出现语义差别较大的现象。如,在同一选择题中出现第一选项为“我要吃苹果”,第二选项为“我要玩电脑”的现象。
在一种可选的实施例中,在基于至少一个目标语料以及与至少一个目标语料对应的错误答复内容,生成目标对象待答复的问答信息之后,问答系统可以获取目标对象答复问答信息的答复结果,然后基于答复结果,确定目标对象对应的得分。
可选的,当问答系统将问答信息反馈给目标对象后,问答系统可以等待目标对象答复问答信息的答复结果,然后问答系统中如图2所示的阅卷装置可以基于答复结果统计目标对象答对的题目,从而确定目标对象在本次考试中的得分。
需要说明的是,通过确定目标对象答复问答信息的得分,便于激发目标对象对相关知识的求知心理,以便于向目标对象普及相关知识。
在一种可选的实施例中,在在基于语料对应的信息类别,将语料存储至多个语料库中的第一目标语料库之后,问答系统可以获取第二目标问题,然后确定第二目标问题对应的信息类别,并基于第二目标问题的信息类别,从多个语料库中确定第二目标语料库,从而从第一目标语料库中确定第二目标问题对应的第二目标答复内容。其中,第二目标问题的问题内容的所属领域为预设领域。
可选的,在目标对象向问答系统发送请求问答的请求信息之前,目标对象可以通过问答系统进行预习。具体地,目标对象可以向问答系统发送第二目标问题,其中,第二目标问题的问题内容可以是与请求信息中的问答内容相关联的内容,且第二目标问题的问题内容以及前述的问答内容均属于预设领域。之后,问答装置可以确定对第二目标问题进行分词、语义分析、情感分析、同义词替换等预处理,以确定第二目标问题对应的信息类别。例如,当第二目标问题中出现“任职”等关键词时,确定第二目标问题对应的信息类别实体关系类,当第二目标问题中出现疑问语句时,确定第二目标问题对应的信息类别为叙事类,当第二目标问题中出现某些条文文件的名称时,确定第二目标问题对应的信息类别为知识手册类。
进一步地,当确定了第二目标问题的信息类别后,可以从多个语料库中确定第二目标语料库,其中,第二目标语料库所对应的信息类别与第二目标问题对应的信息类别相同。之后,问答装置可以从第二目标语料库中查找与第二目标问题相似度大于第三预设阈值的语料,并将查找到语料确定为用于答复第二目标问题的第二目标答复内容。
再进一步地,当第二目标语料库中存在多个可以作为第二目标答复内容的语料时,问答装置可以计算各语料与第二目标问题的相似度,并将相似度最高的语料作为第二目标答复内容。此外,若在第二目标语料库中查找不到与第二目标问题相似度大于第三预设阈值的语料时,问答装置可以从其他语料库中进行查找,以基于扩大检索范围的方式实现对目标对象的答复。
可选的,在问答系统获取目标对象答复问答信息的答复结果之后,目标对象可以通过问答系统实现对错题中相关知识的了解。具体地,目标对象可以向问答系统发送第二目标问题,其中,第二目标问题的问题内容可以是与第一目标问题相关联的内容,且第二目标问题与第一目标问题的问题内容均属于前述的预设领域。之后,问答装置可以基于上一情境中对第二目标问题的处理方法对当前情境中的第二目标问题进行处理,以得到第二目标答复内容,故此处不再赘述。
可选的,在目标对象不具备进行考试的需求时,目标对象也可以向问答系统提出第二目标问题,以便了解相关知识。其中,第二目标问题的问题内容属于前述的预设领域。之后,问答装置可以基于前述情境中对第二目标问题的处理方法对当前情境中的第二目标问题进行处理,以得到第二目标答复内容,故此处不再赘述。
需要说明的是,通过基于目标对象的第二目标问题,确定对应的第二目标答复内容,避免了基于人工回答相关问题造成的工作成本高,同时,还有利于目标对象实现对相关知识的有效学习,从而提高本申请的实用性。
由此可见,本申请所提供的方案达到了基于目标对象请求问答的问答内容,生成目标对象待答复的问答信息的目的,从而实现了降低工作成本的技术效果,进而解决了现有技术中依赖于人工生成问答信息造成的工作成本高的技术问题。
实施例2
根据本发明实施例,提供了一种信息处理装置的实施例,其中,图3是根据本发明实施例的一种可选的信息处理装置的示意图,如图3所示,该装置包括:
获取模块301,用于获取目标对象请求问答的请求信息,其中,请求信息至少包括问答内容;
确定模块302,用于从多个语料库中确定与问答内容对应的至少一个目标语料,其中,目标语料包括第一目标问题,及与目标问题对应的第一目标答复内容;
第一生成模块303,用于基于第一目标答复内容,生成与第一目标问题对应的错误答复内容;
第二生成模块304,用于基于至少一个目标语料以及与至少一个目标语料对应的错误答复内容,生成目标对象待答复的问答信息。
需要说明的是,上述获取模块301、确定模块302、第一生成模块303以及第二生成模块304对应于上述实施例中的步骤S101至步骤S104,四个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选的,第一生成模块还包括:第一生成子模块,用于基于第一目标答复内容生成第二目标答复内容,其中,第一目标答复内容与第二目标答复内容的相似度大于第一预设阈值;分词模块,用于对第二目标答复内容进行分词处理,得到多个分词,并确定至少一个分词在第二目标答复内容中的重要度;筛选模块,用于基于至少一个分词在第二目标答复内容中的重要度,从多个分词中筛选出第一目标分词;替换模块,用于将第二目标答复内容中的第一目标分词替换为第二目标分词,得到替换后的第二目标答复内容,其中,第一目标分词与第二目标分词的相似度大于第二预设阈值;第一确定子模块,用于确定替换后的第二目标答复内容为错误答复内容。
可选的,信息处理装置还包括:第一获取子模块,用于获取目标对象答复问答信息的答复结果;第二确定子模块,用于基于答复结果,确定目标对象对应的得分。
可选的,确定模块还包括:第三确定子模块,用于从多个语料库中确定与问答内容对应的至少一个目标语句;第二生成子模块,用于生成与每个目标语句对应的第一目标问题和第一目标答复内容;第四确定子模块,用于基于与每个目标语句对应的第一目标问题和第一目标答复内容,确定每个目标语句所对应的目标语料。
可选的,信息处理装置还包括:爬取模块,用于从目标网站实时爬取预设领域的目标信息;第五确定子模块,用于确定与目标信息对应的至少一个信息类别;第三生成子模块,用于基于目标信息的信息内容,生成与至少一个信息类别对应的语料;存储模块,用于基于语料对应的信息类别,将语料存储至多个语料库中的第一目标语料库,其中,不同的语料库与不同的信息类别相对应。
可选的,第三生成子模块包括以下至少之一:第六子确定模块,用于基于信息内容生成初始问题和初始答句,并确定初始问题和初始答句为与第一信息类别对应的语料;第七子确定模块,用于基于信息内容确定目标文件,并确定目标文件的文件内容为与第二信息类别对应的语料,其中,目标文件为与信息内容中存在的文件名称所对应的文件;第八子确定模块,用于基于信息内容确定目标实体关系信息,并确定目标实体关系信息为与第三信息类别对应的语料,其中,目标实体关系信息至少表征信息内容中存在的多个对象之间的关联关系。
可选的,信息处理装置还包括:第二获取子模块,用于获取第二目标问题,其中,第二目标问题的问题内容的所属领域为预设领域;第九确定子模块,用于确定第二目标问题对应的信息类别;第十确定子模块,用于基于第二目标问题的信息类别,从多个语料库中确定第二目标语料库;第十一确定子模块,用于从第一目标语料库中确定第二目标问题对应的第二目标答复内容。
实施例3
根据本发明实施例的另一方面,还提供了计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的信息处理方法。
实施例4
根据本发明实施例的另一方面,还提供了一种电子设备,其中,图4是根据本发明实施例的一种可选的电子设备的示意图,如图4所示,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的信息处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种信息处理方法,其特征在于,包括:
获取目标对象请求问答的请求信息,其中,所述请求信息至少包括问答内容;
从多个语料库中确定与所述问答内容对应的至少一个目标语料,其中,所述目标语料包括第一目标问题,及与所述目标问题对应的第一目标答复内容;
基于所述第一目标答复内容,生成与所述第一目标问题对应的错误答复内容;
基于所述至少一个目标语料以及与所述至少一个目标语料对应的错误答复内容,生成所述目标对象待答复的问答信息。
2.根据权利要求1所述的方法,其特征在于,基于所述第一目标答复内容,生成与所述第一目标问题对应的错误答复内容,包括:
基于所述第一目标答复内容生成第二目标答复内容,其中,所述第一目标答复内容与所述第二目标答复内容的相似度大于第一预设阈值;
对所述第二目标答复内容进行分词处理,得到多个分词,并确定至少一个分词在所述第二目标答复内容中的重要度;
基于所述至少一个分词在所述第二目标答复内容中的重要度,从所述多个分词中筛选出第一目标分词;
将所述第二目标答复内容中的第一目标分词替换为第二目标分词,得到替换后的第二目标答复内容,其中,所述第一目标分词与所述第二目标分词的相似度大于第二预设阈值;
确定所述替换后的第二目标答复内容为所述错误答复内容。
3.根据权利要求1所述的方法,其特征在于,在基于所述至少一个目标语料以及与所述至少一个目标语料对应的错误答复内容,生成所述目标对象待答复的问答信息之后,所述方法还包括:
获取目标对象答复所述问答信息的答复结果;
基于所述答复结果,确定所述目标对象对应的得分。
4.根据权利要求1所述的方法,其特征在于,从多个语料库中确定与所述问答内容对应的至少一个目标语料,包括:
从所述多个语料库中确定与所述问答内容对应的至少一个目标语句;
生成与每个目标语句对应的第一目标问题和第一目标答复内容;
基于与所述每个目标语句对应的第一目标问题和第一目标答复内容,确定每个目标语句所对应的目标语料。
5.根据权利要求1所述的方法,其特征在于,在从多个语料库中确定与所述问答内容对应的至少一个目标语料之前,所述方法还包括:
从目标网站实时爬取预设领域的目标信息;
确定与所述目标信息对应的至少一个信息类别;
基于所述目标信息的信息内容,生成与所述至少一个信息类别对应的语料;
基于所述语料对应的信息类别,将所述语料存储至所述多个语料库中的第一目标语料库,其中,不同的语料库与不同的信息类别相对应。
6.根据权利要求5所述的方法,其特征在于,基于所述目标信息的信息内容,生成与所述至少一个信息类别对应的语料,包括以下至少之一:
基于所述信息内容生成初始问题和初始答句,并确定所述初始问题和初始答句为与第一信息类别对应的语料;
基于所述信息内容确定目标文件,并确定所述目标文件的文件内容为与第二信息类别对应的语料,其中,所述目标文件为与所述信息内容中存在的文件名称所对应的文件;
基于所述信息内容确定目标实体关系信息,并确定所述目标实体关系信息为与第三信息类别对应的语料,其中,所述目标实体关系信息至少表征所述信息内容中存在的多个对象之间的关联关系。
7.根据权利要求5或6所述的方法,其特征在于,在基于所述语料对应的信息类别,将所述语料存储至所述多个语料库中的第一目标语料库之后,所述方法还包括:
获取第二目标问题,其中,所述第二目标问题的问题内容的所属领域为所述预设领域;
确定所述第二目标问题对应的信息类别;
基于所述第二目标问题的信息类别,从所述多个语料库中确定第二目标语料库;
从所述第一目标语料库中确定所述第二目标问题对应的第二目标答复内容。
8.一种信息处理装置,其特征在于,包括:
获取模块,用于获取目标对象请求问答的请求信息,其中,所述请求信息至少包括问答内容;
确定模块,用于从多个语料库中确定与所述问答内容对应的至少一个目标语料,其中,所述目标语料包括第一目标问题,及与所述目标问题对应的第一目标答复内容;
第一生成模块,用于基于所述第一目标答复内容,生成与所述第一目标问题对应的错误答复内容;
第二生成模块,用于基于所述至少一个目标语料以及与所述至少一个目标语料对应的错误答复内容,生成所述目标对象待答复的问答信息。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的信息处理方法。
10.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现用于运行程序,其中,所述程序被设置为运行时执行所述权利要求1至7任一项中所述的信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210916930.6A CN115269800A (zh) | 2022-08-01 | 2022-08-01 | 信息处理方法、装置、计算机可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210916930.6A CN115269800A (zh) | 2022-08-01 | 2022-08-01 | 信息处理方法、装置、计算机可读存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115269800A true CN115269800A (zh) | 2022-11-01 |
Family
ID=83746630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210916930.6A Pending CN115269800A (zh) | 2022-08-01 | 2022-08-01 | 信息处理方法、装置、计算机可读存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115269800A (zh) |
-
2022
- 2022-08-01 CN CN202210916930.6A patent/CN115269800A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10720078B2 (en) | Systems and methods for extracting keywords in language learning | |
JP6414956B2 (ja) | 質問文生成装置及びコンピュータプログラム | |
Dalton et al. | Historians and their information sources | |
US9053418B2 (en) | System and method for identifying one or more resumes based on a search query using weighted formal concept analysis | |
US20160133148A1 (en) | Intelligent content analysis and creation | |
Sreelakshmi et al. | A question answering and quiz generation chatbot for education | |
US20140186818A1 (en) | Computer based system and method for assisting an interviewee in remembering and recounting information about a prior event using a cognitive interview and natural language processing | |
Bando et al. | Constructing query-biased summaries: a comparison of human and system generated snippets | |
Chu et al. | An exploratory study on search behavior in different languages | |
US11188844B2 (en) | Game-based training for cognitive computing systems | |
Egbert | Reader perceptions of linguistic variation in published academic writing | |
JP4827163B2 (ja) | テスト問題配信システム | |
US10275487B2 (en) | Demographic-based learning in a question answering system | |
Allard | Managing terminology for translation using translation environment tools: Towards a definition of best practices | |
Nicholas | An assessment of the online searching behaviour of practitioner end users | |
Chavula et al. | Intercomprehension in retrieval: User perspectives on six related scarce resource languages | |
Willever-Farr et al. | Tell me about my family: A study of cooperative research on Ancestry. com | |
CN115269800A (zh) | 信息处理方法、装置、计算机可读存储介质及电子设备 | |
Jijkoun et al. | Preprocessing documents to answer Dutch questions | |
US8504580B2 (en) | Systems and methods for creating an artificial intelligence | |
Aldohon | A corpus-based investigation of academic vocabulary and phrasal verbs in academic spoken English | |
Borman et al. | PicNet: Augmenting Semantic Resources with Pictorial Representations. | |
Avelas et al. | Supporting e-learning with language technology for portuguese | |
St-Jacques et al. | Search by fuzzy inference in a children's dictionary | |
Aberg et al. | User modelling for live help systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |