CN110909538B - 问答内容的识别方法、装置、终端设备及介质 - Google Patents

问答内容的识别方法、装置、终端设备及介质 Download PDF

Info

Publication number
CN110909538B
CN110909538B CN201910973931.2A CN201910973931A CN110909538B CN 110909538 B CN110909538 B CN 110909538B CN 201910973931 A CN201910973931 A CN 201910973931A CN 110909538 B CN110909538 B CN 110909538B
Authority
CN
China
Prior art keywords
question
text
mail
word
questions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910973931.2A
Other languages
English (en)
Other versions
CN110909538A (zh
Inventor
林志洋
王瑗
梅金芳
赵洋
邹晓乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Valueonline Technology Co ltd
Original Assignee
Shenzhen Valueonline Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Valueonline Technology Co ltd filed Critical Shenzhen Valueonline Technology Co ltd
Priority to CN201910973931.2A priority Critical patent/CN110909538B/zh
Publication of CN110909538A publication Critical patent/CN110909538A/zh
Application granted granted Critical
Publication of CN110909538B publication Critical patent/CN110909538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例适用于文本识别技术领域,提供了一种问答内容的识别方法、装置、终端设备及介质,所述方法包括:获取待处理的问题函件以及与所述问题函件相对应的回复函件;识别所述问题函件中各个词语的词性信息以及由所述各个词语构成的句子的句式结构;基于所述问题函件中各个词语的词性信息、所述句子的句式结构及预设的问题词特征库,识别所述问题函件中的一个或多个问题;针对任一问题,在所述回复函件中查找出与所述问题相匹配的文本内容,确定所述文本内容在所述回复函件中的位置信息;根据各个问题在所述回复函件中的位置信息,确定所述各个问题对应的问题答案,提高了往来函件中问答内容的识别效率,节省了大量的人力劳动时间。

Description

问答内容的识别方法、装置、终端设备及介质
技术领域
本申请属于文本识别技术领域,特别是涉及一种问答内容的识别方法、一种问答内容的识别装置、一种终端设备及一种计算机可读存储介质。
背景技术
在证券交易市场,为了加强市场监管,净化市场风气,打击造假和内幕交易,监管机构通常会就某些问题向上市公司下发各种类型的函件,如问询函、监管函或关注函等等,上市公司需要就函件中的问题做出回复。
以问询函为例。问询函主要是表明交易所等监管机构对公司日前披露的重大信息或者在审核上市公司提交的相关文件过程中发现的一些问题表示关注,希望上市公司就此相关问题做出回复。上市公司也在给监管机构的回函文件中对这些问询进行回答。这样的“一问一答”反应了业务处理的实际情况,能够拆解出的问答对第三方来说有很大的业务参考价值。
通常,这些问题和问题回复在函件中是以段落或句子的形式出现的。如果想要在函件中挖掘出具体的问询及相应的答案,往往需要专业人员阅读往来函件,然后再从函件中把问询及答案找出来。当有大量的文档需要处理时,耗费较多的时间和人力资源。
发明内容
有鉴于此,本申请实施例提供了一种问答内容的识别方法、装置、终端设备及介质,以解决现有技术中识别往来函件中的问答内容通常需要专业人员阅读函件,耗费较多的时间和人力资源的问题。
本申请实施例的第一方面提供了一种问答内容的识别方法,包括:
获取待处理的问题函件以及与所述问题函件相对应的回复函件;
识别所述问题函件中各个词语的词性信息以及由所述各个词语构成的句子的句式结构;
基于所述问题函件中各个词语的词性信息、所述句子的句式结构及预设的问题词特征库,识别所述问题函件中的一个或多个问题;
针对任一问题,在所述回复函件中查找出与所述问题相匹配的文本内容,确定所述文本内容在所述回复函件中的位置信息;
根据各个问题在所述回复函件中的位置信息,确定所述各个问题对应的问题答案。
本申请实施例的第二方面提供了一种问答内容的识别装置,包括:
函件获取模块,用于获取待处理的问题函件以及与所述问题函件相对应的回复函件;
词性信息及句式结构识别模块,用于识别所述问题函件中各个词语的词性信息以及由所述各个词语构成的句子的句式结构;
问题识别模块,用于基于所述问题函件中各个词语的词性信息、所述句子的句式结构及预设的问题词特征库,识别所述问题函件中的一个或多个问题;
文本内容查找模块,用于针对任一问题,在所述回复函件中查找出与所述问题相匹配的文本内容,确定所述文本内容在所述回复函件中的位置信息;
问题答案确定模块,用于根据各个问题在所述回复函件中的位置信息,确定所述各个问题对应的问题答案。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述问答内容的识别方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述问答内容的识别方法的步骤。
本申请实施例的第五方面提供了一种计算机程序产品,当所述计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面项所述问答内容的识别方法的步骤。
与现有技术相比,本申请实施例包括以下优点:
本申请实施例,通过获取待处理的问题函件以及与该问题函件相对应的回复函件,可以首先识别问题函件中各个词语的词性信息及各个句子的句式结构,并基于上述各个词语的词性信息、各个句子的句式结构及预设的问题词特征库,识别出问题函件中的一个或多个问题,然后,针对任一问题,可以在回复函件中查找出与该问题相匹配的文本内容,确定上述文本内容在回复函件中的位置信息,从而可以根据各个问题在回复函件中的位置信息,确定各个问题对应的问题答案。本实施例通过文本识别的方式可以自动标记和提取问题函件中涉及到提问的段落或句子,并从回复函件中查找出对应的答案,提高了往来函件中问答内容的识别效率,节省了大量的人力劳动时间。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例的一种问答内容的识别方法的步骤流程示意图;
图2是本申请一个实施例的另一种问答内容的识别方法的步骤流程示意图;
图3是本申请一个实施例的又一种问答内容的识别方法的步骤流程示意图;
图4是本申请一个实施例的一种问答内容的识别装置的示意图;
图5是本申请一个实施例的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
下面通过具体实施例来说明本申请的技术方案。
参照图1,示出了本申请一个实施例的一种问答内容的识别方法的步骤流程示意图,具体可以包括如下步骤:
S101、获取待处理的问题函件以及与所述问题函件相对应的回复函件;
需要说明的是,本方法可以应用在终端设备中,该终端设备可以通过对问题函件和回复函件进行识别,匹配出相应的问题及问题答案。
本实施例中问题函件可以是针对一个或多个问题生成的函件,该函件可以是pdf格式、word格式或其他格式的,在问题函件中通常会包括以文本形式存在的多个问题。与上述问题函件相对应的回复函件则可以是针对问题函件中各个问题做出回答的函件,即回复函件中包括问题函件中各个问题的答案。
作为一种示例,本实施例中的问题函件可以是在证券市场中较常使用到的、由监管机构下发给上市公司的问询函。该问询函中通常会包括监管机构请求上市公司做出回复的多个问题。相应地,回复函件则可以是针对上述问询函的回函,包括上市公司对于监管机构询问的问题的回复内容。
当然,问题函件及其相对应的回复函件还可以是在其他领域或场景中使用到的往来函件,本实施例对此不作限定。
为了便于理解,本实施例统一以问题函件为监管机构下发给上市公司的问询函,回复函件为上市公司针对问询函回复的回函为例进行后续介绍。上述问询函和回函均可以通过公开渠道获得。
S102、识别所述问题函件中各个词语的词性信息以及由所述各个词语构成的句子的句式结构;
通常,在问题函件中,均包括以文本形式写明的多个问题。因此,在获取到问题函件后,为了便于对该函件中的各个问题的识别,可以首先对问题函件中的各个词语的词性及各个句子的句式结构进行识别。即,识别问题函件中各个词语属于动词、名词、连词等词语中的哪一类,以及识别由上述各个词语组成的句子属于陈述句、疑问句、祈使句、感叹句中的哪一类。
S103、基于所述问题函件中各个词语的词性信息、所述句子的句式结构及预设的问题词特征库,识别所述问题函件中的一个或多个问题;
在本实施例中,问题词特征库可以包括问题函件中所涉及到的多个特征词。
在具体实现中,可以根据应用领域的不同,预先采集该领域常用的一些问题词,构成问题词特征库。
例如,针对监管机构下发给上市公司的问询函,可以预先采集多份问询函,识别出问询函中经常使用到的问题词,形成问题词特征库。
然后,结合S102中识别出的各个词语的词性,通过特征词匹配、段落及语句结构分析等方式,可以找出问询函中的各个问题。
S104、针对任一问题,在所述回复函件中查找出与所述问题相匹配的文本内容,确定所述文本内容在所述回复函件中的位置信息;
在识别出问题函件中的各个问题后,可以继续对回复函件进行处理,逐一识别出回复函件中与上述各个问题相对应的问题答案。
通常,在对问题函件中的各个问题进行回复时,都会在将原问题复述一遍,或者对原问题进行概括后,然后才针对性地回答。因此,在对回复函件进行处理时,可以首先针对问题函件中的各个问题,找到该问题在回复函件中的具体位置。
在具体实现中,可以通过将各个问题与回复函件中的文本内容进行比较,如果某一段落或句子与该问题的内容完全相同,或者二者之间具有较高的相似度,则可以认为该段落或句子即是问题函件中相应的问题,并标记该问题的位置。
S105、根据各个问题在所述回复函件中的位置信息,确定所述各个问题对应的问题答案。
一般地,在对各个问题进行回复时都会是逐个回复的。即,回复完一个问题后,再回复另一个问题。因此,可以认为回复函件中被标记为问题的两处文本之间的内容即是前一个问题的答案。
在本实施例中,在识别中问题函件中的各个问题,并从回复函件中找出与各个问题的对应的问题答案后,便可以分别将各个问题以及与各个问题对应的问题答案存储至数据库,供其他用户查询参考。
在具体实现中,可以在从问题函件中识别出各个问题后,便将各个问题存储至数据库,待后续从回复函件中查找出与各个问题对应的问题答案后,再将问题答案对应存储至上述数据库中,并建立问题与问题答案之间的对应关系。也可以是首先从问题函件中识别出各个问题,然后从回复函件中查找出与各个问题对应的问题答案,并在建立二者之间的对应关系后,统一将各个问题及与之对应的问题答案存储至数据库,本实施例对此不作限定。
在本申请实施例中,通过获取待处理的问题函件以及与该问题函件相对应的回复函件,可以首先识别问题函件中各个词语的词性信息及各个句子的句式结构,并基于上述各个词语的词性信息、各个句子的句式结构及预设的问题词特征库,识别出问题函件中的一个或多个问题,然后,针对任一问题,可以在回复函件中查找出与该问题相匹配的文本内容,确定上述文本内容在回复函件中的位置信息,从而可以根据各个问题在回复函件中的位置信息,确定各个问题对应的问题答案。本实施例通过文本识别的方式可以自动标记和提取问题函件中涉及到提问的段落或句子,并从回复函件中查找出对应的答案,提高了往来函件中问答内容的识别效率,节省了大量的人力劳动时间。
参照图2,示出了本申请一个实施例的另一种问答内容的识别方法的步骤流程示意图,具体可以包括如下步骤:
S201、获取待处理的问题函件以及与所述问题函件相对应的回复函件;
为了便于理解,本实施例统一以问题函件为监管机构下发给上市公司的问询函,回复函件为上市公司针对问询函回复的回函为例进行后续介绍。上述问询函和回函均可以通过公开渠道获得。
S202、将所述问题函件转换为文本格式;对所述文本格式的问题函件的内容进行分词,识别分词后的各个词语的词性信息;
S203、根据所述各个词语的词性信息,识别由所述各个词语构成的至少一个句子的句式结构;
通常,能够从公开渠道获得问题函件及回复函件往往是pdf或word格式的,除了必要的文本内容外,还包括一些其他内容。
为了便于后续的文本识别和分析,在获取到待处理的问题函件后,可以首先对该问题函件进行预处理,即对该函件进行格式转换,得到纯文本格式的问题函件。然后再识别该函件中各个词语的词性。
在具体实现中,可以针对纯文本格式的问题函件中全部内容进行分词,然后逐词标记具体的词性。被标记的词性类别可以是名词、动词、形容词或其他。
在识别出各个词语的词性信息后,可以进一步确定问题函件中各个句子的句式结构。
需要说明的是,在对问题函件中各个词语进行分词时,同时可以对函件中的标点符号进行标记。通过识别句号、感叹号、疑问号可以将问题函件拆分成多个句子,然后结合句子中各个词语的词性,可以进一步确定该句子的句式结构是陈述句、感叹句、祈使句或疑问句等等。
识别出的各个词语的词性信息及各个句子的句式结构,后续可以结合问题词特征库用作问题的识别。
S204、针对所述问题函件中的任一段落,检测所述段落的多个词语中是否包含所述预设的问题词特征库中的至少一个问题词;
在识别问题函件中的各个问题时,可以逐段或逐句进行。
例如,针对问题函件中的任一段落,可以结合通过S202识别出的该段落中各个词语的词性,检测该段落中的多个词语是否包含预设的问题词特征库中的至少一个问题词。
在本实施例中,问题词特征库以根据应用领域的不同,通过预先采集该领域常用的一些问题词构成。
例如,针对监管机构下发给上市公司的问询函,通过分析已有的问询函可知,问询函通常包含一些希望上市公司回复、回答或解释的内容。因此,其问题词往往可以包括“请回复”,“请回答”,“请解释”或者类似的一些词语。
通过检测问题函件中各个段落或句子中是否包含上述问题词,可以初步判断该段落或句子是否是一个具体的问题。
为了进一步保证问题识别的准确性,在经检测确认某一段落的多个词语中包含预设的问题词特征库中的至少一个问题词时,可以继续执行S204,判断该段落中的多个词语构成的至少一个句子的句式结构是否为提问句式。
S205、根据所述段落中各个词语的词性信息,判断所述段落中的多个词语构成的至少一个句子的句式结构是否为提问句式;
某个句子是否为提问句式可以结合各个词语的词性,通过对段落及语句结构进行分析判断得到。
如果经检测确认某一段落的多个词语中包含预设的问题词特征库中的至少一个问题词,且该段落中的多个词语构成的至少一个句子的句式结构为提问句式,则可以判定该段落为问题函件中的问题。
S206、将所述段落识别为所述问题函件中的问题;
S207、针对任一问题,在所述回复函件中查找出与所述问题相匹配的文本内容,确定所述文本内容在所述回复函件中的位置信息;
在识别出问题函件中的各个问题后,可以继续对回复函件进行处理,逐一识别出回复函件中与上述各个问题相对应的问题答案。
通常,在对问题函件中的各个问题进行回复时,都会在将原问题复述一遍,或者对原问题进行概括后,然后才针对性地回答。因此,在对回复函件进行处理时,可以首先针对问题函件中的各个问题,找到该问题在回复函件中的具体位置。
S208、根据各个问题在所述回复函件中的位置信息,确定所述各个问题对应的问题答案。
一般地,在对各个问题进行回复时都会是逐个回复的。即,回复完一个问题后,再回复另一个问题。因此,可以认为回复函件中被标记为问题的两处文本之间的内容即是前一个问题的答案。
在本申请实施例中,对于问题函件的处理,可以首先将其转换为纯文本格式,并通过分词、标记词性及句式结构等处理,结合预先生成的问题词特征库,通过判断某一段落或句子是否包括上述特征库中的特征词以及判断段落中的句子是否为提问句式,可以识别出问题函件中具体的问题,提高了问题识别的准确性。
参照图3,示出了本申请一个实施例的又一种问答内容的识别方法的步骤流程示意图,具体可以包括如下步骤:
S301、获取待处理的问题函件以及与所述问题函件相对应的回复函件;
S302、将所述问题函件转换为文本格式;对所述文本格式的问题函件的内容进行分词,识别分词后的各个词语的词性信息;
S303、根据所述各个词语的词性信息,识别由所述各个词语构成的至少一个句子的句式结构;
S304、基于所述问题函件中各个词语的词性信息、所述句子的句式结构及预设的问题词特征库,识别所述问题函件中的一个或多个问题;
由于本实施例中步骤S301-S304与前述实施例中步骤S101-S103以及S201-S206类似,可以相互参阅,本实施例对此不再赘述。
S304、将所述回复函件转换为文本格式,分别识别所述文本格式的回复函件中的多个文本段落;
针对回复函件的预处理,与针对问题函件的预处理方式相同,可以首先将回复函件转换为纯文本格式,然后逐一确定纯文本格式的内容中包含的各个文本段落。
S305、针对任一问题,分别计算所述问题与各个文本段落的文本内容之间的文本相似度;
然后,可以按照各个问题在问题函件中的顺序,逐一从回复函件的各个文本段落中查找出与该问题相似的段落。
在具体实现中,针对某一问题,可以逐一计算该问题对应的文本与回复函件中各个段落的文本内容之间的文本相似度。例如,可以对回复函件中各个段落进行分词,通过判断问题文本中的词语与该段落中的词语的重合度以及各个词语的排列顺序之间的相似度,计算得到二者之间的文本相似度。通常,文本相似度越高,表示二者之间的文本越相近。
S306、将所述文本相似度最大值对应的文本内容识别为与所述问题相匹配的文本内容,确定所述文本内容在所述回复函件中的位置信息;
在计算出某一问题与各个段落之间的文本相似度后,可以将文本相似度最大值对应的那个段落识别为该问题,并标记出该问题在回复函件中的位置。
S307、根据各个问题在所述回复函件中的位置信息,将相邻两个问题之间的文本内容识别为前一个问题对应的问题答案,所述前一个问题为所述相邻两个问题中按照文本阅读顺序相对靠前的问题。
通常,业务的客观规律是两个问题的中间部分为第一个问题的答案部分,通过识别两个问题段落可以确定中间段落的文本便是问题答案。而针对最后一个问题的答案边界,则可以通过结束语言的特征和下个段落不涉及具体的“问题”来确定答案内容区域。识别结束语句可以通过识别句式结构和常用的特征词按照前述实施例中识别具体的“问题”的方式来进行,即通过判断下个段落不涉及问题的方法可以是该段落不符合提问句式结构,且没有问题特征词。
在本申请实施例中,在识别出问题函件中具体的问题并在回复函件中标记出各个问题具体的问题后,可以根据业务的客观规律,将两个问题的中间部分识别为前一个问题的问题答案,而无需对问题答案的具体内容进行分析,降低了问题答案的识别难度,提高了问题答案的识别效率和准确率。
需要说明的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
参照图4,示出了本申请一个实施例的一种问答内容的识别装置的示意图,具体可以包括如下模块:
函件获取模块401,用于获取待处理的问题函件以及与所述问题函件相对应的回复函件;
词性信息及句式结构识别模块402,用于识别所述问题函件中各个词语的词性信息以及由所述各个词语构成的句子的句式结构;
问题识别模块403,用于基于所述问题函件中各个词语的词性信息、所述句子的句式结构及预设的问题词特征库,识别所述问题函件中的一个或多个问题;
文本内容查找模块404,用于针对任一问题,在所述回复函件中查找出与所述问题相匹配的文本内容,确定所述文本内容在所述回复函件中的位置信息;
问题答案确定模块405,用于根据各个问题在所述回复函件中的位置信息,确定所述各个问题对应的问题答案。
在本申请实施例中,所述词性信息识别模块402具体可以包括如下子模块:
问题函件格式转换子模块,用于将所述问题函件转换为文本格式;
词性信息识别子模块,用于对所述文本格式的问题函件的内容进行分词,识别分词后的各个词语的词性信息;
句式结构识别子模块,用于根据所述各个词语的词性信息,识别由所述各个词语构成的至少一个句子的句式结构。
在本申请实施例中,所述问题函件可以包括多个段落,所述问题识别模块403具体可以包括如下子模块:
问题词检测子模块,用于针对所述问题函件中的任一段落,检测所述段落的多个词语中是否包含所述预设的问题词特征库中的至少一个问题词;
提问句式判断子模块,用于若所述段落的多个词语中包含所述预设的问题词特征库中的至少一个问题词,则根据所述段落中各个词语的词性信息,判断所述段落中的多个词语构成的至少一个句子的句式结构是否为提问句式;
问题识别子模块,用于若所述段落中的多个词语构成的至少一个句子的句式结构为提问句式,则将所述段落识别为所述问题函件中的问题。
在本申请实施例中,所述文本内容查找模块404具体可以包括如下子模块:
文本段落识别子模块,用于将所述回复函件转换为文本格式,分别识别所述文本格式的回复函件中的多个文本段落;
文本相似度计算子模块,用于针对任一问题,分别计算所述问题与各个文本段落的文本内容之间的文本相似度;
文本内容识别子模块,用于将所述文本相似度最大值对应的文本内容识别为与所述问题相匹配的文本内容。
在本申请实施例中,所述问题答案确定模块405具体可以包括如下子模块:
问题答案确定子模块,用于根据各个问题在所述回复函件中的位置信息,将相邻两个问题之间的文本内容识别为前一个问题对应的问题答案,所述前一个问题为所述相邻两个问题中按照文本阅读顺序相对靠前的问题。
在本申请实施例中,所述装置还可以包括如下模块:
存储模,用于分别将所述各个问题以及与所述各个问题对应的问题答案存储至数据库。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例部分的说明即可。
参照图5,示出了本申请一个实施例的一种终端设备的示意图。如图5所示,本实施例的终端设备500包括:处理器510、存储器520以及存储在所述存储器520中并可在所述处理器510上运行的计算机程序521。所述处理器510执行所述计算机程序521时实现上述问答内容的识别方法各个实施例中的步骤,例如图1所示的步骤S101至S105。或者,所述处理器510执行所述计算机程序521时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至405的功能。
示例性的,所述计算机程序521可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器520中,并由所述处理器510执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段可以用于描述所述计算机程序521在所述终端设备500中的执行过程。例如,所述计算机程序521可以被分割成函件获取模块、词性信息识别模块、问题识别模块、文本内容查找模块和问题答案确定模块,各模块具体功能如下:
函件获取模块,用于获取待处理的问题函件以及与所述问题函件相对应的回复函件;
词性信息及句式结构识别模块,用于识别所述问题函件中各个词语的词性信息以及由所述各个词语构成的句子的句式结构;
问题识别模块,用于基于所述问题函件中各个词语的词性信息、所述句子的句式结构及预设的问题词特征库,识别所述问题函件中的一个或多个问题;
文本内容查找模块,用于针对任一问题,在所述回复函件中查找出与所述问题相匹配的文本内容,确定所述文本内容在所述回复函件中的位置信息;
问题答案确定模块,用于根据各个问题在所述回复函件中的位置信息,确定所述各个问题对应的问题答案。
所述终端设备500可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备500可包括,但不仅限于,处理器510、存储器520。本领域技术人员可以理解,图5仅仅是终端设备500的一种示例,并不构成对终端设备500的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备500还可以包括输入输出设备、网络接入设备、总线等。
所述处理器510可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器520可以是所述终端设备500的内部存储单元,例如终端设备500的硬盘或内存。所述存储器520也可以是所述终端设备500的外部存储设备,例如所述终端设备500上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等等。进一步地,所述存储器520还可以既包括所述终端设备500的内部存储单元也包括外部存储设备。所述存储器520用于存储所述计算机程序521以及所述终端设备500所需的其他程序和数据。所述存储器520还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制。尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (8)

1.一种问答内容的识别方法,其特征在于,包括:
获取待处理的问题函件以及与所述问题函件相对应的回复函件,所述问题函件为监管机构下发给上市公司的问询函,所述回复函件为所述上市公司针对所述问询函回复的回函;
识别所述问题函件中各个词语的词性信息以及由所述各个词语构成的句子的句式结构;
基于所述问题函件中各个词语的词性信息、所述句子的句式结构及预设的问题词特征库,识别所述问题函件中的一个或多个问题,所述问题词特征库是预先采集监管机构下发给上市公司的多份问询函,通过识别所述问询函中使用到的问题词形成的;
针对任一问题,在所述回复函件中查找出与所述问题相匹配的文本内容,确定所述文本内容在所述回复函件中的位置信息,所述回复函件对所述问题函件的回复是逐个回复的,所述回复函件中包括多个文本段落,与所述问题相匹配的文本内容为多个所述文本段落中与所述问题的文本相似度最大值对应的文本段落;
根据各个问题在所述回复函件中的位置信息,确定所述各个问题对应的问题答案;
其中,所述针对任一问题,在所述回复函件中查找出与所述问题相匹配的文本内容的步骤包括:
将所述回复函件转换为文本格式,分别识别所述文本格式的回复函件中的多个文本段落;
针对任一问题,分别计算所述问题与各个文本段落的文本内容之间的文本相似度,所述文本相似度包括所述问题中的词语与各个文本段落中的词语的重合度以及各个词语的排列顺序之间的相似度;
将所述文本相似度最大值对应的文本内容识别为与所述问题相匹配的文本内容。
2.根据权利要求1所述的方法,其特征在于,所述识别所述问题函件中各个词语的词性信息以及由所述各个词语构成的句子的句式结构的步骤包括:
将所述问题函件转换为文本格式;
对所述文本格式的问题函件的内容进行分词,识别分词后的各个词语的词性信息;
根据所述各个词语的词性信息,识别由所述各个词语构成的至少一个句子的句式结构。
3.根据权利要求1所述的方法,其特征在于,所述问题函件包括多个段落,所述基于所述问题函件中各个词语的词性信息、所述句子的句式结构及预设的问题词特征库,识别所述问题函件中的一个或多个问题的步骤包括:
针对所述问题函件中的任一段落,检测所述段落的多个词语中是否包含所述预设的问题词特征库中的至少一个问题词;
若所述段落的多个词语中包含所述预设的问题词特征库中的至少一个问题词,则根据所述段落中各个词语的词性信息,判断所述段落中的多个词语构成的至少一个句子的句式结构是否为提问句式;
若所述段落中的多个词语构成的至少一个句子的句式结构为提问句式,则将所述段落识别为所述问题函件中的问题。
4.根据权利要求1所述的方法,其特征在于,所述根据各个问题在所述回复函件中的位置信息,确定所述各个问题对应的问题答案的步骤包括:
根据各个问题在所述回复函件中的位置信息,将相邻两个问题之间的文本内容识别为前一个问题对应的问题答案,所述前一个问题为所述相邻两个问题中按照文本阅读顺序相对靠前的问题。
5.根据权利要求1所述的方法,其特征在于,在所述确定所述各个问题对应的问题答案的步骤后,还包括:
分别将所述各个问题以及与所述各个问题对应的问题答案存储至数据库。
6.一种问答内容的识别装置,其特征在于,包括:
函件获取模块,用于获取待处理的问题函件以及与所述问题函件相对应的回复函件,所述问题函件为监管机构下发给上市公司的问询函,所述回复函件为所述上市公司针对所述问询函回复的回函;
词性信息及句式结构识别模块,用于识别所述问题函件中各个词语的词性信息以及由所述各个词语构成的句子的句式结构;
问题识别模块,用于基于所述问题函件中各个词语的词性信息、所述句子的句式结构及预设的问题词特征库,识别所述问题函件中的一个或多个问题,所述问题词特征库是预先采集监管机构下发给上市公司的多份问询函,通过识别所述问询函中使用到的问题词形成的;
文本内容查找模块,用于针对任一问题,在所述回复函件中查找出与所述问题相匹配的文本内容,确定所述文本内容在所述回复函件中的位置信息,所述回复函件对所述问题函件的回复是逐个回复的,所述回复函件中包括多个文本段落,与所述问题相匹配的文本内容为多个所述文本段落中与所述问题的文本相似度最大值对应的文本段落;
问题答案确定模块,用于根据各个问题在所述回复函件中的位置信息,确定所述各个问题对应的问题答案;
其中,所述文本内容查找模块包括:
文本段落识别子模块,用于将所述回复函件转换为文本格式,分别识别所述文本格式的回复函件中的多个文本段落;
文本相似度计算子模块,用于针对任一问题,分别计算所述问题与各个文本段落的文本内容之间的文本相似度,所述文本相似度包括所述问题中的词语与各个文本段落中的词语的重合度以及各个词语的排列顺序之间的相似度;
文本内容识别子模块,用于将所述文本相似度最大值对应的文本内容识别为与所述问题相匹配的文本内容。
7.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述问答内容的识别方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述问答内容的识别方法的步骤。
CN201910973931.2A 2019-10-14 2019-10-14 问答内容的识别方法、装置、终端设备及介质 Active CN110909538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910973931.2A CN110909538B (zh) 2019-10-14 2019-10-14 问答内容的识别方法、装置、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910973931.2A CN110909538B (zh) 2019-10-14 2019-10-14 问答内容的识别方法、装置、终端设备及介质

Publications (2)

Publication Number Publication Date
CN110909538A CN110909538A (zh) 2020-03-24
CN110909538B true CN110909538B (zh) 2024-04-12

Family

ID=69815303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910973931.2A Active CN110909538B (zh) 2019-10-14 2019-10-14 问答内容的识别方法、装置、终端设备及介质

Country Status (1)

Country Link
CN (1) CN110909538B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199467B (zh) * 2020-09-08 2023-12-08 深圳价值在线信息科技股份有限公司 函件显示页面的配置方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930452A (zh) * 2016-04-21 2016-09-07 北京紫平方信息技术股份有限公司 一种识别自然语言的智能应答方法
CN106844329A (zh) * 2016-11-03 2017-06-13 北京大学(天津滨海)新代信息技术研究院 一种基于邮件列表的开源软件问答信息抽取方法
WO2019012908A1 (ja) * 2017-07-13 2019-01-17 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答装置
CN109800284A (zh) * 2018-12-19 2019-05-24 中国电子科技集团公司第二十八研究所 一种面向任务的非结构化信息智能问答系统构建方法
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930452A (zh) * 2016-04-21 2016-09-07 北京紫平方信息技术股份有限公司 一种识别自然语言的智能应答方法
CN106844329A (zh) * 2016-11-03 2017-06-13 北京大学(天津滨海)新代信息技术研究院 一种基于邮件列表的开源软件问答信息抽取方法
WO2019012908A1 (ja) * 2017-07-13 2019-01-17 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答装置
CN109800284A (zh) * 2018-12-19 2019-05-24 中国电子科技集团公司第二十八研究所 一种面向任务的非结构化信息智能问答系统构建方法
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统

Also Published As

Publication number Publication date
CN110909538A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN110163478B (zh) 一种合同条款的风险审查方法及装置
US20230222366A1 (en) Systems and methods for semantic analysis based on knowledge graph
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
CN110909122B (zh) 一种信息处理方法及相关设备
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
CN111737499B (zh) 基于自然语言处理的数据搜索方法及相关设备
CN110162780B (zh) 用户意图的识别方法和装置
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
CN111209411B (zh) 一种文档分析的方法及装置
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN115392235A (zh) 字符匹配方法、装置、电子设备及可读存储介质
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
CN111159354A (zh) 一种敏感资讯检测方法、装置、设备及系统
US9020212B2 (en) Automatically determining a name of a person appearing in an image
TW202123026A (zh) 資料歸檔方法、裝置、電腦裝置及存儲介質
CN110909538B (zh) 问答内容的识别方法、装置、终端设备及介质
CN110909112B (zh) 数据提取方法、装置、终端设备及介质
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN110851560B (zh) 信息检索方法、装置及设备
CN112488557A (zh) 一种基于评分标准客观分的自动计算方法、装置、终端
CN112329468B (zh) 异质关系网络的构建方法、装置、计算机设备及存储介质
CN114328847B (zh) 一种基于知识图谱的数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant