CN108446320A - 一种数据处理方法、装置和用于数据处理的装置 - Google Patents
一种数据处理方法、装置和用于数据处理的装置 Download PDFInfo
- Publication number
- CN108446320A CN108446320A CN201810136733.6A CN201810136733A CN108446320A CN 108446320 A CN108446320 A CN 108446320A CN 201810136733 A CN201810136733 A CN 201810136733A CN 108446320 A CN108446320 A CN 108446320A
- Authority
- CN
- China
- Prior art keywords
- answer
- text
- relevant information
- platform
- relevant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括:监听答题平台的问题;确定与所述问题相关的文本;从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息;输出所述答案及其相关信息。本发明实施例可以提高答案的获取成功率,且提供的相关信息可以帮助用户判断答案是否准确、以及使用户了解该答案相关的背景知识。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种数据处理方法、装置和用于数据处理的装置。
背景技术
自动问答(AQA,Automatic Question Answering)技术是伴随着自然语言的语义处理技术而发展起来的。自动问答技术可以针对自然语言形式的问题,给出相应的答案。例如,自动问答技术可以针对问题“送水节是哪个亚洲国家最重要的节日之一?”,直接给出答案“柬埔寨”。
现有的自动问答技术可以依靠计算机收集大量问答语料,以问题-答案对的形式进行存储,构成问答对数据库。在接收到需要回答的问题的情况下,根据上述问题在上述问答对数据库中查找相匹配的问题,然后返回该相匹配的问题对应的答案。
然而,在实际应用中,问答语料的收集手段等因素导致上述问答对数据库所包括问题-答案对的数量通常是有限的,这样,若需要回答的问题未命中上述问答对数据库,也即上述问答对数据库中不包括与需要回答的问题相匹配的问题,则现有的自动问答技术无法得出需要回答的问题对应的答案,因此使得答案的获取成功率较低。
发明内容
本发明实施例提供一种数据处理方法、装置和用于数据处理的装置,可以提高答案的获取成功率,且提供的相关信息可以帮助用户判断答案是否准确、以及使用户了解该答案相关的背景知识。
为了解决上述问题,本发明实施例公开了一种数据处理方法,包括:
监听答题平台的问题;
确定与所述问题相关的文本;
从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息;
输出所述答案及其相关信息。
可选地,所述从所述文本中抽取所述问题对应的答案,包括:
从所述文本中确定所述问题对应的多个候选答案;
依据排序特征,从所述多个候选答案中确定所述问题对应的答案;其中,所述排序特征包括:所述候选答案与所述问题对应的问题意图之间的匹配度。
可选地,所述从所述文本中确定所述问题对应的多个候选答案,包括:
识别所述文本中的多个实体词,并依据所述多个实体词得到候选答案。
可选地,所述排序特征还包括:所述候选答案的出现频率、和/或所述候选答案与所述问题之间的匹配度。
可选地,所述从所述文本中抽取所述答案的相关信息,包括:
从所述文本中确定包括所述答案的目标文本;
从所述目标文本中抽取所述答案的上下文,作为所述答案的相关信息。
可选地,所述从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息,包括:
将所述问题和所述文本输入机器学习模型,并接收所述机器学习模型输出的所述问题对应的答案、以及所述答案的相关信息;所述机器学习模型的训练数据包括:问题样本、与问题样本相关的文本段、以及所述文本段对应的标注答案和标注相关信息。
可选地,所述监听答题平台的问题,包括:
针对预设的答题平台,获取对应问题的截屏图片;
从所述截屏图片中识别所述问题的内容。
可选地,所述输出所述答案及其相关信息,包括:
通过悬浮窗,显示所述答案及其相关信息。
可选地,所述问题源自直播答题平台;
则所述输出所述答案及其相关信息,包括:
采用标签页的形式,对源自不同直播答题平台的问题对应的答案、以及所述答案的相关信息分别进行展现,以使用户可以通过触发所述标签页查看每个标签页对应的答案及其相关信息。
可选地,所述问题源自直播答题平台;
则所述方法还包括:
针对所述直播答题平台所对应问题的更新,对所述悬浮窗或所述标签页中内容进行更新。
另一方面,本发明实施例公开了一种数据处理装置,包括:
问题监听模块,用于监听答题平台的问题;
文本确定模块,用于确定与所述问题相关的文本;
抽取模块,用于从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息;以及
输出模块,用于输出所述答案及其相关信息。
可选地,所述抽取模块包括:
候选答案确定子模块,用于从所述文本中确定所述问题对应的多个候选答案;以及
答案确定子模块,用于依据排序特征,从所述多个候选答案中确定所述问题对应的答案;其中,所述排序特征包括:所述候选答案与所述问题对应的问题意图之间的匹配度。
可选地,所述候选答案确定子模块包括:
识别单元,用于识别所述文本中的多个实体词,并依据所述多个实体词得到候选答案。
可选地,所述排序特征还包括:所述候选答案的出现频率、和/或所述候选答案与所述问题之间的匹配度。
可选地,所述抽取模块包括:
目标文本确定子模块,用于从所述文本中确定包括所述答案的目标文本;以及
相关信息抽取子模块,用于从所述目标文本中抽取所述答案的上下文,作为所述答案的相关信息。
可选地,所述抽取模块包括:
模型抽取子模块,用于将所述问题和所述文本输入机器学习模型,并接收所述机器学习模型输出的所述问题对应的答案、以及所述答案的相关信息;所述机器学习模型的训练数据包括:问题样本、与问题样本相关的文本段、以及所述文本段对应的标注答案和标注相关信息。
可选地,所述问题监听模块包括:
截屏图片子模块,用于针对预设的答题平台,获取对应问题的截屏图片;以及
问题内容识别子模块,用于从所述截屏图片中识别所述问题的内容。
可选地,所述输出模块包括:
悬浮窗显示子模块,用于通过悬浮窗,显示所述答案及其相关信息。
可选地,所述问题源自直播答题平台;
则所述输出模块包括:
标签页展现子模块,用于采用标签页的形式,对源自不同直播答题平台的问题对应的答案、以及所述答案的相关信息分别进行展现,以使用户可以通过触发所述标签页查看每个标签页对应的答案及其相关信息。
可选地,所述问题源自直播答题平台;
则所述装置还包括:
更新模块,用于针对所述直播答题平台所对应问题的更新,对所述悬浮窗或所述标签页中内容进行更新。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
监听答题平台的问题;
确定与所述问题相关的文本;
从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息;
输出所述答案及其相关信息。
可选地,所述从所述文本中抽取所述问题对应的答案,包括:
从所述文本中确定所述问题对应的多个候选答案;
依据排序特征,从所述多个候选答案中确定所述问题对应的答案;其中,所述排序特征包括:所述候选答案与所述问题对应的问题意图之间的匹配度。
可选地,所述从所述文本中确定所述问题对应的多个候选答案,包括:
识别所述文本中的多个实体词,并依据所述多个实体词得到候选答案。
可选地,所述排序特征还包括:所述候选答案的出现频率、和/或所述候选答案与所述问题之间的匹配度。
可选地,所述从所述文本中抽取所述答案的相关信息,包括:
从所述文本中确定包括所述答案的目标文本;
从所述目标文本中抽取所述答案的上下文,作为所述答案的相关信息。
可选地,所述从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息,包括:
将所述问题和所述文本输入机器学习模型,并接收所述机器学习模型输出的所述问题对应的答案、以及所述答案的相关信息;所述机器学习模型的训练数据包括:问题样本、与问题样本相关的文本段、以及所述文本段对应的标注答案和标注相关信息。
可选地,所述监听答题平台的问题,包括:
针对预设的答题平台,获取对应问题的截屏图片;
从所述截屏图片中识别所述问题的内容。
可选地,所述输出所述答案及其相关信息,包括:
通过悬浮窗,显示所述答案及其相关信息。
可选地,所述问题源自直播答题平台;
则所述输出所述答案及其相关信息,包括:
采用标签页的形式,对源自不同直播答题平台的问题对应的答案、以及所述答案的相关信息分别进行展现,以使用户可以通过触发所述标签页查看每个标签页对应的答案及其相关信息。
可选地,所述问题源自直播答题平台;
则所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
针对所述直播答题平台所对应问题的更新,对所述悬浮窗或所述标签页中内容进行更新。
又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述一个或多个所述的数据处理方法。
本发明实施例包括以下优点:
本发明实施例中与问题相关的文本可以源自互联网,如互联网的网页或者文档等,与问题相关的文本可以包括:答复该问题的文本、和/或、讨论该问题的文本、和/或、包括该问题的关键词的文本等,故与问题相关的文本中可能包含问题对应的答案,因此,本发明实施例可以从与问题相关的文本中抽取得到该问题对应的答案。由于互联网包括有海量信息,故可以从互联网的海量信息中确定与问题相关的文本,并且,与问题相关的文本中包括问题对应的答案的概率较高,因此本发明实施例可以提高答案的获取成功率。
并且,本发明实施例还可以从所述文本中抽取答案的相关信息,并供用户参考;该相关信息可以为该答案相关的知识点介绍等信息,该相关信息可以帮助用户判断答案是否准确,还可以使用户了解该答案的相关知识,进而使用户学习到该答案的相关知识。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种数据处理方法的应用环境的示意;
图2是本发明的一种数据处理方法实施例一的步骤流程图;
图3是本发明的一种数据处理方法实施例二的步骤流程图;
图4是本发明的一种数据处理装置实施例的结构框图;
图5是本发明的一种用于数据处理的装置800的框图;及
图6是本发明的一些实施例中服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种数据处理方案,该方案可以监听答题平台的问题;确定与问题相关的文本;从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息;输出所述答案及其相关信息。
本发明实施例从与问题相关的文本中抽取该问题对应的答案。其中,与问题相关的文本可以源自互联网,如互联网的网页或者文档等;与问题相关的文本可以包括:答复该问题的文本、和/或、讨论该问题的文本、和/或、包括该问题的关键词的文本等。可以理解,与该问题相关的任意文本均在该文本的保护范围之内,这样与问题相关的文本中可能包含问题对应的答案。因此,本发明实施例可以从与问题相关的文本中抽取得到该问题对应的答案。由于互联网包括有海量信息,故可以从互联网的海量信息中确定与问题相关的文本,并且,与问题相关的文本中包括问题对应的答案的概率较高,因此本发明实施例可以提高答案的获取成功率。
假设需要回答的问题A为“南北战争”相关的问题,现有的自动问答技术中,问答语料的收集手段等因素导致上述问答对数据库中不包括与问题A相匹配的问题,则现有的自动问答技术无法得出问题A对应的答案。而本发明实施例可以确定与问题A相关的文本,如与问题A相关的文本为网页,该网页的标题为“12个你可能不知道的美国南北战争‘常识’”,并可以从该文本中抽取问题A对应的答案,因此本发明实施例可以提高答案的获取成功率。
并且,本发明实施例还可以从所述与问题相关的文本中抽取答案的相关信息,并供用户参考;该相关信息可以为该答案相关的知识点介绍等信息,该相关信息可以帮助用户判断答案是否准确,并且还可以使用户了解该答案相关的背景知识。
在本发明的一种示例中,假设问题为“古代官署机构大理寺的职能近似于现代的?”,则本发明实施例可以从该问题相关的文本中抽取得到答案:“法院”,并给出该答案的相关信息,如“《说文》云‘廷也’,即指宫廷的侍卫人员,以后寺人的官署亦即称之为‘寺’,如‘大理寺’、‘太常寺’等”。
本发明实施例提供的数据处理方法可以应用于例如网站和/或APP(应用程序,Application)的交互性平台的应用环境中,以提高答案的获取成功率,且提供的相关信息可以帮助用户判断答案是否准确、以及使用户了解该答案相关的背景知识。
上述交互性平台的例子可以包括:问答平台、BBS(电子公告牌系统,BulletinBoard System)平台、微博平台、答题平台等。上述交互性平台可以发布问题,用户可以看到该问题并给出相应的答复。上述答题平台可以包括:直播答题平台。该直播答题平台可以提供连续的多个问题,以使用户在预设时长内给出各问题对应的答案,预设时长的例子可以包括10秒等,可以理解本发明实施例对于具体的预设时长不加以限制。可选地,直播答题平台还可以提供各问题对应的多个候选答案,以使用户根据需求从多个候选答案中选择至少一个候选答案。
本发明实施例提供的数据处理方法可应用于图1所示的应用环境中,如图1所示,客户端100与服务器200位于有线或无线网络中,通过该有线或无线网络,客户端100与服务器200进行数据交互。
可选地,客户端100可以运行在终端上,上述终端具体包括但不限于:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
方法实施例一
参照图2,示出了本发明的一种数据处理方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤201、监听答题平台的问题;
步骤202、确定与问题相关的文本;
步骤203、从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息;
步骤204、输出所述答案及其相关信息。
图2所示实施例的至少一个步骤可由服务器和/或客户端执行,当然本发明实施例对于各个步骤的具体执行主体不加以限制。例如,服务器可以监听答题平台的问题,确定与问题相关的文本;从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息,并向客户端输出所述答案及其相关信息。又如,客户端可以监听答题平台的问题,确定与问题相关的文本;从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息,并向用户输出所述答案及其相关信息。
本发明实施例中,客户端和服务器可以与处理平台相对应。根据一种实施例,该处理平台可以与答题平台相同,客户端和服务器可以获取其对应答题平台发布的问题。根据另一种实施例,该处理平台可以与答题平台不同,例如,该处理平台可以为搜索平台,该搜索平台可以提供辅助答题的功能,此种情况下,客户端和服务器可以实时监听预设的答题平台发布的问题。
根据一种实施例,预设的答题平台可以是预设时间段内最热门的N(N为自然数)个答题平台,其中,可以通过预设时间段内的用户关注量确定答题平台的热度特征,依据热门特征对答题平台进行排序,依据排序结果从多个答题平台中选择N个答题平台。
根据另一种实施例,可以向用户提供答题平台的列表,以使用户从该列表中选择预设的答题平台,以使预设的答题平台符合用户的个性化需求。例如,处理平台提供的列表包括:答题平台1-4,终端A的用户选择了答题平台1和答题平台4;终端B的用户选择了答题平台1和答题平台2等。
根据再一种实施例,当用户所需的答题平台(例如新出现的答题平台、或者热度较低的答题平台)不在上述列表中的情况下,用户可以向处理平台发送申请。若处理平台接收到的用户针对一种答题平台的申请数量超过阈值,则可以将所述答题平台添加至上述列表。
可以理解,本领域技术人员或者用户可以根据实际应用需求,确定预设的答题平台,本发明实施例对于预设的答题平台不加以限制。
在本发明的一种可选实施例中,步骤201监听答题平台的问题的过程可以包括:针对预设的答题平台,获取对应问题的截屏图片;从所述截屏图片中识别所述问题的内容。
在实际应用中,预设的答题平台可以在第一设备上通过界面显示问题,本发明实施例可以对问题对应的界面进行截屏,以得到问题的截屏图片。根据一种实施例,第一设备可以对答题平台中问题对应的界面进行截屏,并将得到的截屏图片传输给第二设备。根据另一种实施例,可以将第一设备上答题平台中问题对应的界面投屏到第二设备的桌面系统上,并对第二设备的桌面系统上显示的投屏界面进行截屏处理,以得到问题的截屏图片。例如,第一设备的操作系统为IOS(苹果公司的移动操作系统),则可以将第一设备上显示的预设的答题平台对应的直播视频流投屏到MAC(苹果公司的电脑操作系统)桌面系统中,并对投屏到MAC桌面系统中的视频流进行截屏处理。
可选地,除了从所述截屏图片中识别所述问题的内容之外,还可以从该截屏图片中识别所述问题的选项,以依据该选项确定该问题的候选答案。
上述从所述截屏图片中识别所述问题的内容的过程可以包括:通过OCR(光学字符识别,Optical Character Recognition)技术识别上述截屏图片中所对应问题的内容。当然,本发明实施例对于从所述截屏图片中识别所述问题的内容的具体过程不加以限制。
步骤202中,与问题相关的文本可以源自互联网,如互联网的网页或者文档等,与问题相关的文本可以包括:答复该问题的文本、和/或、讨论该问题的文本、和/或、包括该问题的关键词的文本等,由于互联网包括有海量信息,故可以从互联网的海量信息中确定与问题相关的文本。
可选地,上述步骤202可以依据该问题进行搜索,以得到所述问题对应的搜索结果,并从该搜索结果中获取与所述问题相关的文本。其中,搜索结果可以为网页或者文档,其可以包括:一个或者多个文本段。
上述搜索结果可以源自搜索引擎的数据库、垂直问答网站的数据库等数据源。相应地,上述确定与问题相关的文本所采用的确定方式具体可以包括:
确定方式1、通过搜索引擎获取问题对应的搜索结果,并从所述搜索结果中获取与所述问题相关的文本;和/或
确定方式2、从垂直问答平台获取与问题相关的文本。
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,对信息进行组织和处理后,为用户提供搜索服务,并将与用户搜索相关的信息展示给用户的系统。在实际应用中,可以直接将问题对应的文本作为搜索词,或者,将问题包括的关键词作为搜索词,由搜索引擎查询得到与该搜索词匹配的网页或文档,作为搜索结果。
垂直问答平台可以指问答领域对应的垂直网站,如“知乎”平台、“搜狗问问”平台、语聊平台等。上述垂直问答平台可以包括:答复一个问题的文本、和/或、讨论一个问题的文本、和/或、包括一个问题的关键词的文本等。
可选地,为了降低运算量,可以从搜索结果中选取排在前M位的搜索结果,以从中识别候选答案,其中,M为正整数,例如,M可以为10等数值。
由于与问题相关的文本中可能包含问题对应的答案,因此,本发明实施例的步骤203可以从与问题相关的文本中抽取得到该问题对应的答案。
本发明实施例可以提供从所述文本中抽取所述问题对应的答案、或者所述答案的相关信息的如下技术方案:
技术方案1
技术方案1中,步骤203从所述文本中抽取所述问题对应的答案的过程可以包括:从所述文本中确定所述问题对应的多个候选答案;依据排序特征,从所述多个候选答案中确定所述问题对应的答案;其中,所述排序特征可以包括:所述候选答案与所述问题对应的问题意图之间的匹配度。
可选地,上述从所述文本中确定所述问题对应的多个候选答案,具体可以包括:识别所述文本中的多个实体词,并依据所述多个实体词得到候选答案。由于在人机竞赛或者抢答或者直播答题的场景下,问题意图和答案类型通常与实体相关,故可以从上述文本中识别得到多个实体词,依据所述多个实体词得到候选答案。其中,可以直接将各实体词作为候选答案;或者,在问题为选择题的情况下,该选择题可以包括多个选项,可以对各实体词与该问题对应的选项进行匹配,并将相匹配的实体词作为候选答案。
本发明实施例中,实体是一个具体事物或概念,实体一般会划分类型,例如人物类实体、电影类实体等;同一个实体可以对应多个实体实例,实体实例是在网络(或其它媒介)中对一个实体的描述性页面(内容),例如各种百科的页面中即包含实体对应的实体实例。实体词的例子可以包括但不限于:人名、地名、机构名、书名、歌名、影视剧名、产品名、品牌名等专有名词。在实际应用中,可以从互联网抓取实体相关数据,并对实体相关数据进行分析,以得到对应的实体词,并将该实体词存储至实体库,本发明实施例对于具体的实体词及其获取方式不加以限制。
问题意图可以指问题所表达的用户意图。例如,问题“被誉为CD之父的是哪位”、或者“质能方程的提出者是谁”对应的问题意图可以为“人物意图”,又如,问题“被誉为物理学圣剑的武器全称是什么”对应的问题意图可以为“武器意图”,再如,“世界著名建筑泰姬陵位于哪个国家”对应的问题意图可以为“地理位置意图”。当然,本发明实施例对于具体的问题意图不加以限制。
本发明实施例可以提供问题意图的如下确定方案:
确定方案1、
确定方案1确定问题意图的过程可以包括:从问题中识别出当前LAT(词法答案类型,Lexical Answer Type)指向性词;依据所述当前LAT指向性词,在预先建立的LAT指向性词与LAT词之间的映射关系中进行查找,以得到所述当前LAT指向性词对应的目标LAT词;依据所述目标LAT词,得到问题对应的问题意图。
确定方案1可以首先识别出问题中包含的当前LAT指向性词,然后依据LAT指向性词与LAT词之间的映射关系,得到当前LAT指向性词对应的目标LAT词;其中,LAT指向性词可用于表示对问题意图有指向性的词语,LAT词可用于表征问题意图。这样,LAT指向性词与LAT词之间的映射关系可以描述LAT指向性词到LAT词对应问题意图的指向关系。本发明实施例依据LAT指向性词与LAT词之间的映射关系,得到当前LAT指向性词对应的目标LAT词;由于通过当前LAT指向性词推导得到目标LAT词,故即使问题中不包含目标LAT词,仍能够通过推导得到问题对应的问题意图。这样,本发明实施例能够在接收完整的问题之前,提前按照推导得到的问题意图获得该问题对应的答案,因此能够提高答案反馈效率,以及降低答案的反馈延迟。
LAT词,可用于表示问题中指明答案类型的文本。可选地,可以收集大量的问题,并对收集的问题进行分析统计,以建立LAT库,该LAT库可用于存储LAT词。例如,该LAT库中存储的LAT词可以包括:皇帝、岛屿、山峰、事件、国、花、河等。可以理解,本发明实施例对于具体的LAT词不加以限制。
可选地,可以对完整的问题进行分析,依据相应的分析结果从中挖掘出LAT指向性词,并将挖掘得到的LAT指向性词保存至LAT指向性词库;以及,建立LAT指向性词与LAT词之间的映射关系。参照表1,示出了本发明的一种LAT指向性词与LAT词之间的映射关系的示意。可以理解,表1所示的LAT词只是作为示例,实际上,例如“人物”的LAT词还可以被细分为“皇帝”、“科学家”、“诗人”、“物理学家”等,可以理解,本发明实施例的LAT词可以为任意的实体类型、和/或任意实体类型对应的实体词,本发明实施例对于具体的LAT指向性词与LAT词之间的映射关系不加以限制。
表1
LAT指向性词 | LAT词 |
位 | 人物 |
艘 | 船 |
篇 | 作品 |
条 | 河流和/或街道 |
首 | 歌曲和/或诗 |
位于 | 地理位置(如国家、地理名胜等) |
去世 | 人物 |
坐落 | 地理位置(如国家、地理名胜等) |
提出 | 人物 |
被誉为 | 人物和/或事物 |
之父 | 人物 |
剑 | 武器 |
在实际应用中,上述从问题中识别出当前LAT指向性词的过程可以包括:将问题包含的各词汇与该LAT指向性词库中的各LAT指向性词进行匹配,若匹配成功,则将问题包含的匹配成功的词汇作为当前LAT指向性词。可以理解,本发明实施例对于从问题中识别出当前LAT指向性词的具体过程不加以限制。
在本发明的一种应用示例1中,假设完整的问题为“被誉为CD之父的是哪位”,则在问题为“被誉为”时,假设“被誉为”存在于该LAT指向性词库中,则可以通过查找表1得到“被誉为”对应的目标LAT词“人物和/或事物”;并且,在问题为“被誉为CD之父”时,假设“之父”存在于该LAT指向性词库中,则可以通过查找表1得到“之父”对应的目标LAT词“人物”,最终可以确定“被誉为CD之父”对应的问题意图为“人物”。同理,假设完整的问题为“被誉为物理学圣剑的武器全称是什么”,则在问题为“被誉为物理学圣剑”时,可以确定其对应的问题意图为“武器”。
在本发明的一种应用示例2中,假设完整的问题为“世界著名建筑泰姬陵位于哪个国家”,则在问题为“世界著名建筑泰姬陵位于”时,假设“位于”存在于该LAT指向性词库中,则可以通过查找表1得到“位于”对应的目标LAT词“地理位置”。
在本发明的一种应用示例3中,假设完整的问题为“质能方程的提出者是谁”,则在问题为“质能方程的提出”时,假设“提出”存在于该LAT指向性词库中,则可以通过查找表1得到“提出”对应的目标LAT词“人物”。
由于上述目标LAT词可以作为问题的核心词或者焦点词,其可以反映问题的答案类型,故可以直接将该目标LAT词作为问题对应的问题意图,或者,可以对该目标LAT词进行进一步处理(如多个目标LAT词的融合处理等),以得到问题对应的问题意图。
确定方案2、
确定方案2确定问题意图的过程可以包括:对问题进行依存句法分析,以得到对应的依存句法分析结果;从所述依存句法分析结果中提取核心语义单元;依据所述核心语义单元,得到问题对应的问题意图。
确定方案2可以从问题对应的依存句法分析结果中提取核心语义单元,并依据所述核心语义单元,得到问题对应的问题意图;其中,用于表征问题意图的上述核心语义单元可以包括:核心词、核心单词等。
在实际应用中,依存句法分析结果可以包括:依存树,该依存树可用于表征问题包括的各单词之间的依存关系,对该依存树进行分析,并根据分析结果从该依存树中提取核心语义单元。
在实际应用中,可以按照预置的提取规则,对该依存树进行分析,并根据分析结果从该依存树中提取核心语义单元。
可选地,所述从所述依存句法分析结果中提取核心语义单元,可以包括:若所述依存树中的疑问词后紧邻的词汇为名词或者名词短语,则提取所述名词或者名词短语作为所述核心语义单元。若依存树中疑问词后紧跟着名词或者名词短语,那么该名词或者名词短语可能是用于表征问题意图的上述核心语义单元;例如,问题“哪位科学家曾帮助犹太科学家逃出德国”可以对应“哪位科学家”、“哪位科学家曾帮助犹太科学家”等问题中,该问题中疑问词“哪位”后紧跟着名词“科学家”,故可以将“科学家”作为核心语义单元。
可选地,所述从所述依存句法分析结果中提取核心语义单元,可以包括:若所述依存树中的疑问词处于问题的末尾,则提取距离所述疑问词最近的名词或者名词短语,作为所述核心语义单元。若疑问词处于问题的末尾,那么距离该疑问词最近的名词或者名词短语可以为表征问题意图的核心语义单元。例如,假设问题为“被誉为CD之父的是哪位”,其对应的问题包括:“被誉为CD之父的是哪”,该问题中距离疑问词“哪”最近的名词短语为“CD之父”,则该可以将“CD之父”作为核心语义单元。
可选地,所述从所述依存句法分析结果中提取核心语义单元,可以包括:若所述依存树中的疑问词后紧邻的词汇为动词,则提取问题中最后出现的名词或者名词短语,作为所述核心语义单元。若疑问词后面跟着动词,那么问题中最后出现的名词或者名词短语可以为表征问题意图的核心语义单元。例如,假设问题为“中国戏曲中的人物按角色分为生、旦、净、末、丑,哪一个是女角色的统称”,该问题中疑问词“哪一个”跟着动词“是”,故可以将最后出现的名词短语“女角色的统称”作为核心语义单元。
可以理解,上述预置的提取规则只是作为可选实施例,本发明实施例对于具体的提取规则不加以限制。由于上述核心语义单元可以作为问题的核心词或者焦点词,其可以反映问题的答案类型,故可以直接将该核心语义单元作为问题对应的问题意图,或者,可以对该核心语义单元进行进一步处理(如多个核心语义单元的融合处理等),以得到问题对应的问题意图。
确定方案3
确定方案3确定问题意图的过程可以包括:通过领域识别模块以及领域意图识别模块,对问答对的问题进行意图识别。
其中,领域识别模块可用于识别问题所属的领域;领域的例子可以包括:“奥运体育”、“地域问题”、“电脑数码”、“法律法规”、“健康生活”、“教育科学”、“经济金融”、“情感家庭”、“社会民生”、“休闲娱乐”、“医疗卫生”、“艺术文字”、“游戏”等,当然本发明实施例对于具体的领域不加以限制。
领域意图识别模块可用于在领域内识别问题对应的问题意图。根据一种实施例,意图识别可以看作是一个多分类任务,故领域意图识别模块可以通过分类器,在领域内识别问题对应的问题意图。其中,可以依据多个问题意图得到分类器的分类任务(一个问题意图可以对应一个分类任务),并依据多个问题意图对应的问答对语料得到的分类器的训练样本,例如,训练样本可以为问题语料及标注好的问题意图类别,在此基础上对训练样本进行训练以得到分类器。根据另一种实施例,领域意图识别模块可以通过问题意图语句模式,在领域内识别问题对应的问题意图,其中,问题意图语句模式可用于表示领域内问题意图所对应的语句模式,其可以包括至少一个关键词,且该至少一个关键词可以符合对应的语法规则;这样,可以基于问题与问题意图模式之间的匹配,得到问题对应的问题意图模式。
可以理解,本领域技术人员可以根据实际应用需求,采用上述确定方案1至确定方案3中的任一或者组合,确定问题意图,本发明实施例对于确定问题意图的具体过程不加以限制。
本发明实施例依据候选答案与问题意图之间的匹配度,从所述多个候选答案中确定所述问题对应的答案,具体地,可以从多个候选答案中选择最佳的一个或者多个候选答案,作为所述问题对应的答案。通常,该候选答案与该问题意图之间的匹配度越高,则候选答案的排序位置越靠前、或者得分越高。例如,该问题意图为“人物”,则若候选答案1所属的类别为“皇帝”,则候选答案1与“人物”之间的匹配度较高,而若候选答案2所属的类别为“国家”,则候选答案2与“人物”之间的匹配度较低,因此,候选答案2的排序位置越靠前、或者得分越高。
在本发明的一种可选实施例中,上述排序特征还可以包括:所述候选答案的出现频率、和/或所述候选答案与所述问题之间的匹配度、和/或所述文本与所述问题之间的相关度(该相关度可由搜索引擎提供)等等,其中,上述候选答案的出现频率可以为上述候选答案在预置文档集合中的出现频率,通常,该出现频率越高,则候选答案的排序位置越靠前、或者得分越高。或者,通常该候选答案与问题之间的匹配度越高,则候选答案的排序位置越靠前、或者得分越高。或者,通常该相关度越高,则候选答案的排序位置越靠前、或者得分越高。该预置文档集合可以为问题对应的答案集合等等,本发明实施例对于具体的预置文档集合不加以限制。
在采用一种或多种排序特征时,可以依据一种或多种排序特征计算各候选答案的得分,则可按照得分从高到低的顺序对多种候选答案进行排序,并选择排在最前面的或者得分最高的一个或者多个候选答案,作为问题对应的答案。
需要说明的是,本发明实施例中,可以基于预置语料的统计,得到本发明实施例的上述出现频率。例如,可以统计候选答案在预置语料中的出现次数,并依据该出现次数得到候选答案的出现频率。其中,上述预置语料可以为网页文本语料、实体-属性对语料、互联网博客语料、互联网微博语料等。可以理解,本发明实施例对于具体的预置语料及出现频率的具体获取方式不加以限制。
所述候选答案与所述问题之间的匹配度可以为所述候选答案所对应百科词条的内容与问题之间的匹配度,也即,在候选答案作为百科词条的情况下,百科网站通常会通过百科页面提供百科词条的内容。假设问题为“中国戏曲中的人物按角色分为生、旦、净、末、丑,哪一个是女角色的统称”,候选答案包括:“生”、“旦”、“净”、“丑”,则可以将各候选答案所对应百科词条的内容与问题进行匹配,假设“旦”所对应百科词条的内容中包括“旦,戏曲表演行当类型之一,女角色之统称”,则可以认为“旦”与问题直接的匹配度较高。
技术方案2
技术方案2中,步骤203从所述文本中抽取所述答案的相关信息的过程,可以包括:从所述文本中确定包括所述答案的目标文本;从所述目标文本中抽取所述答案的上下文,作为所述答案的相关信息。
本发明实施例可以直接将目标文本中所述答案的上下文作为所述答案的相关信息。
其中,在多段目标文本均包括所述答案的上下文的情况下,可以得到多段目标文本分别对应的多处相关信息。可以对多处相关信息进行排序,将最优的一处相关信息,作为所述答案的相关信息。
对多处相关信息进行排序的依据可以包括但不限于:相关信息与问题直接的相关性、相关信息是否包括答案、相关信息所属网站的权威性、相关信息的时效性等。例如,百科网站的权威性大于贴吧网站的权威性,或者,相关信息的发布时间距离当前时间越近,则相关信息的时效性越强。
技术方案3
技术方案3中,步骤203从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息,具体可以包括:将所述问题和所述文本输入机器学习模型,并接收所述机器学习模型输出的所述问题对应的答案、以及所述答案的相关信息;所述机器学习模型的训练数据具体可以包括:问题样本、与问题样本相关的文本段、以及所述文本段对应的标注答案和标注相关信息。
本发明实施例可以将答案抽取的问题转换为答案标注的问题,以及,可以将相关信息抽取的问题转换为相关信息标注的问题,并通过机器学习模型处理该答案标注的问题和相关信息标注的问题。具体地,该机器学习模型的输入可以为问题、以及问题对应的至少一处文本,并针对每处文本标注其中是否包含该问题对应的答案、以及是否包含该答案的相关信息,若是,则该机器学习模型可以抽取答案和相关信息,因此,该机器学习模型的输出可以为问题对应的答案和答案的相关信息。
由于所述机器学习模型的训练数据具体可以包括:问题样本、与问题样本相关的文本段、以及所述文本段对应的标注答案和标注相关信息,故对上述训练数据进行训练,可以使得训练后的机器学习模型具备答案标注和相关信息标注的能力。
所述机器学习模型的类型可以包括但不限于:神经网络模型、SVM(支持向量机,Support Vector Machine)模型等。可选地,上述机器学习模型可以通过词向量来表示一个词汇,并通过词向量之间的距离来表征词汇之间的语义距离,这样本发明实施例可将一个词汇对应的众多上下文参与到机器学习模型的训练,使得该机器学习模型的标注能力更佳。可以理解,本发明实施例对于具体的机器学习模型不加以限制。
在实际应用中,本领域技术人员可以根据实际应用需求,采用上述技术方案1至技术方案3中的任一或者组合,可以理解,本发明实施例对于从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息的具体过程不加以限制。
步骤204可以输出步骤203得到的答案及其相关信息。例如,服务器可以向客户端输出答案及其相关信息,或者,客户端可以通过终端输出答案及其相关信息,可选地,客户端可以通过语音或者界面的形式进行答案及其相关信息的输出。
在本发明的一种实施例中,除了输出答案及其相关信息之外,还可以输出上述问题,以使用户结合问题和相关信息,判断答案是否准确。可选地,可以按照从上到下的顺序,依次展示问题、答案和相关信息,当然,本发明实施例对于问题、答案和相关信息的具体展示顺序不加以限制。
在本发明的一种可选实施例中,除了输出答案及其相关信息之外,还可以提供上述问题所对应搜索结果的入口,以使用户通过该入口快速进入该问题对应的搜索结果页。该入口的展示位置可以位于输出答案或者相关信息的附近,如相关信息的右侧等。
在本发明的一种可选实施例中,所述输出所述答案及其相关信息的过程,可以包括:通过悬浮窗,显示所述答案及其相关信息。悬浮窗通常以透明或半透明的方式悬浮于界面上,该悬浮窗所对应的第一屏幕区域通常为完整屏幕区域的一部分,例如,该悬浮窗可以位于屏幕的上侧、或者下侧、或者左侧、或者右侧等。例如,答题平台提供的问题及选项位于第二屏幕区域,而本发明实施例提供的答案及其相关信息位于第一屏幕区域,这样可以使用户通过查看第一屏幕区域的信息确定问题的答案,并依据确定的答案进行选项的选择和提交。
在本发明的一种可选实施例中,所述问题可以源自直播答题平台;则所述输出所述答案及其相关信息的过程,可以包括:采用标签页(Tab)的形式,对源自不同直播答题平台的问题对应的答案、以及所述答案的相关信息分别进行展现,以使用户可以通过触发所述标签页查看每个标签页对应的答案及其相关信息。本发明实施例通过多个标签页,实现多个直播答题平台的问题所对应答案和相关信息的共同展现,可以满足用户对于多个直播答题平台的答案和相关信息的浏览需求。
在本发明的一种可选实施例中,所述问题可以源自直播答题平台;则所述方法还可以包括:针对所述直播答题平台所对应问题的更新,对所述悬浮窗或所述标签页中内容进行更新。
所述直播答题平台所对应问题的更新可以包括:第一个问题的出现、以及从第i(i为正整数)个问题到第(i+1)个问题的更新等,可以理解,本发明实施例对于直播答题平台所对应问题的具体更新方式不加以限制。
本发明实施例对所述悬浮窗中内容进行更新,具体可以包括:将所述悬浮窗中内容更新为与所述直播答题平台中当前问题相匹配的内容,如当前问题对应的题目内容、答案和相关信息等。
本发明实施例对所述标签页中内容进行更新,具体可以包括:在标签页中前一问题对应答案的下方自动显示新一问题对应的答案,也即在标签页中第i个问题的答案下方自动显示第(i+1)个问题的答案,可以在用户不触发更新操作的情况下,自动进行答案及其相关信息的更新,因此可以提高用户的答题效率。
综上,本发明实施例的数据处理方法,与问题相关的文本可以源自互联网,如互联网的网页或者文档等,与问题相关的文本可以包括:答复该问题的文本、和/或、讨论该问题的文本、和/或、包括该问题的关键词的文本等,故与问题相关的文本中可能包含问题对应的答案,因此,本发明实施例可以从与问题相关的文本中抽取得到该问题对应的答案。由于互联网包括有海量信息,故可以从互联网的海量信息中确定与问题相关的文本,并且,与问题相关的文本中包括问题对应的答案的概率较高,因此本发明实施例可以提高答案的获取成功率。
并且,本发明实施例还可以从所述文本中抽取答案的相关信息,并供用户参考;该相关信息可以为该答案相关的知识点介绍等信息,该相关信息可以帮助用户判断答案是否准确,还可以使用户了解该答案的相关知识,进而使用户学习到该答案的相关知识。
方法实施例二
本发明实施例中,问题可以源自直播答题平台。在一种直播答题平台的场景下,每次活动由一名主持人出题,一般共有12道选择题,每次出题会弹出画面,每个问题有10秒的回答时间,本发明实施例提供答案的时间可以在2秒左右,当然,本发明实施例对于具体的回答时间和提供答案的时间不加以限制。
本发明实施例的处理平台可以与直播答题平台不同。根据一种场景,用户可以通过第一终端上运行的直播答题平台APP(应用程序,Application)显示答题界面、以及提交问题的答案;以及用户可以通过第二终端上运行的处理平台APP显示与所述答题界面中当前问题相匹配的答案及相关信息,也即,用户通过两个终端实现快速答题。
根据另一种场景,用户可以通过第一终端上运行的直播答题平台APP显示答题界面、以及提交问题的答案,以及用户可以通过第一终端上运行的处理平台APP的悬浮窗显示与所述答题界面中当前问题相匹配的答案及相关信息,也即,用户通过一个终端实现快速答题。其中,悬浮窗的尺寸可调,悬浮窗可以占用第一屏幕区域,答题界面可以占用第二屏幕区域,第一屏幕区域和第二屏幕区域均为完整屏幕区域的部分。
参照图3,示出了本发明的一种数据处理方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤301、服务器端针对预设的答题平台,获取对应问题的截屏图片;从所述截屏图片中识别所述问题的内容;
步骤302、服务器端确定与问题相关的文本,并从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息;
步骤303、服务器端向客户端发送所述答案及其相关信息;
步骤304、客户端对所述答案及其相关信息进行展示。
在实际应用中,服务器端可以对预设的答题平台进行监听,若监听到某个预设的答题平台处于答题模式,则可以触发步骤301。
客户端可以显示与预设的答题平台中当前问题相匹配的答案及相关信息。例如,在页面中前一问题对应答案的下方自动显示新一问题对应的答案,也即在页面中第i个问题的答案下方自动显示第(i+1)个问题的答案,可以在用户不触发更新操作的情况下,自动进行答案及其相关信息的更新,因此可以提高用户的答题效率。
可选地,在同时有多个答题平台处于答题模式的情况下,可以将多个答题平台以多个标签页的形式展示,每个标签页对应一个答题平台,每个标签页中该答题平台对应的答案和相关信息跟随问题的更新而自动实时更新。
可选地,还可以将答案及其相关信息嵌入到答题平台中实时展示,具体的,可以设置悬浮于答题平台的界面之上的悬浮窗,在该悬浮窗中实时展示答案以及答案的相关信息。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图4,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括:问题监听模块401、文本确定模块402、抽取模块403和输出模块404。
其中,问题监听模块401,用于监听答题平台的问题;
文本确定模块402,用于确定与所述问题相关的文本;
抽取模块403,用于从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息;
输出模块404,用于输出所述答案及其相关信息。
可选地,所述抽取模块403可以包括:
候选答案确定子模块,用于从所述文本中确定所述问题对应的多个候选答案;以及
答案确定子模块,用于依据排序特征,从所述多个候选答案中确定所述问题对应的答案;其中,所述排序特征可以包括:所述候选答案与所述问题对应的问题意图之间的匹配度。
可选地,所述候选答案确定子模块可以包括:
识别单元,用于识别所述文本中的多个实体词,并依据所述多个实体词得到候选答案。
可选地,所述排序特征还可以包括:所述候选答案的出现频率、和/或所述候选答案与所述问题之间的匹配度。
可选地,所述抽取模块403可以包括:
目标文本确定子模块,用于从所述文本中确定可以包括所述答案的目标文本;以及
相关信息抽取子模块,用于从所述目标文本中抽取所述答案的上下文,作为所述答案的相关信息。
可选地,所述抽取模块403可以包括:
模型抽取子模块,用于将所述问题和所述文本输入机器学习模型,并接收所述机器学习模型输出的所述问题对应的答案、以及所述答案的相关信息;所述机器学习模型的训练数据可以包括:问题样本、与问题样本相关的文本段、以及所述文本段对应的标注答案和标注相关信息。
可选地,所述问题监听模块401可以包括:
截屏图片子模块,用于针对预设的答题平台,获取对应问题的截屏图片;以及
问题内容识别子模块,用于从所述截屏图片中识别所述问题的内容。
可选地,所述输出模块404可以包括:
悬浮窗显示子模块,用于通过悬浮窗,显示所述答案及其相关信息。
可选地,所述问题源自直播答题平台;
则所述输出模块404可以包括:
标签页展现子模块,用于采用标签页的形式,对源自不同直播答题平台的问题对应的答案、以及所述答案的相关信息分别进行展现,以使用户可以通过触发所述标签页查看每个标签页对应的答案及其相关信息。
可选地,所述问题源自直播答题平台;
则所述装置还可以包括:
更新模块,用于针对所述直播答题平台所对应问题的更新,对所述悬浮窗或所述标签页中内容进行更新。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:监听答题平台的问题;确定与所述问题相关的文本;从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息;输出所述答案及其相关信息。
图5是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音数据处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频数据处理(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图6是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行图2或图3所示的数据处理方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:监听答题平台的问题;确定与所述问题相关的文本;从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息;输出所述答案及其相关信息。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
监听答题平台的问题;
确定与所述问题相关的文本;
从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息;
输出所述答案及其相关信息。
2.根据权利要求1所述的方法,其特征在于,所述从所述文本中抽取所述问题对应的答案,包括:
从所述文本中确定所述问题对应的多个候选答案;
依据排序特征,从所述多个候选答案中确定所述问题对应的答案;其中,所述排序特征包括:所述候选答案与所述问题对应的问题意图之间的匹配度。
3.根据权利要求2所述的方法,其特征在于,所述从所述文本中确定所述问题对应的多个候选答案,包括:
识别所述文本中的多个实体词,并依据所述多个实体词得到候选答案。
4.根据权利要求2所述的方法,其特征在于,所述排序特征还包括:所述候选答案的出现频率、和/或所述候选答案与所述问题之间的匹配度。
5.根据权利要求1所述的方法,其特征在于,所述从所述文本中抽取所述答案的相关信息,包括:
从所述文本中确定包括所述答案的目标文本;
从所述目标文本中抽取所述答案的上下文,作为所述答案的相关信息。
6.根据权利要求1所述的方法,其特征在于,所述从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息,包括:
将所述问题和所述文本输入机器学习模型,并接收所述机器学习模型输出的所述问题对应的答案、以及所述答案的相关信息;所述机器学习模型的训练数据包括:问题样本、与问题样本相关的文本段、以及所述文本段对应的标注答案和标注相关信息。
7.根据权利要求1至6中任一所述的方法,其特征在于,所述监听答题平台的问题,包括:
针对预设的答题平台,获取对应问题的截屏图片;
从所述截屏图片中识别所述问题的内容。
8.一种数据处理装置,其特征在于,包括:
问题监听模块,用于监听答题平台的问题;
文本确定模块,用于确定与所述问题相关的文本;
抽取模块,用于从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息;以及
输出模块,用于输出所述答案及其相关信息。
9.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
监听答题平台的问题;
确定与所述问题相关的文本;
从所述文本中抽取所述问题对应的答案、以及所述答案的相关信息;
输出所述答案及其相关信息。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中一个或多个所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810136733.6A CN108446320A (zh) | 2018-02-09 | 2018-02-09 | 一种数据处理方法、装置和用于数据处理的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810136733.6A CN108446320A (zh) | 2018-02-09 | 2018-02-09 | 一种数据处理方法、装置和用于数据处理的装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108446320A true CN108446320A (zh) | 2018-08-24 |
Family
ID=63192222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810136733.6A Pending CN108446320A (zh) | 2018-02-09 | 2018-02-09 | 一种数据处理方法、装置和用于数据处理的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108446320A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110012359A (zh) * | 2019-03-25 | 2019-07-12 | 北京小米移动软件有限公司 | 答案提示方法及装置 |
CN110177284A (zh) * | 2019-05-23 | 2019-08-27 | 北京达佳互联信息技术有限公司 | 信息展示方法、装置、电子设备及存储介质 |
CN110297897A (zh) * | 2019-06-21 | 2019-10-01 | 科大讯飞(苏州)科技有限公司 | 问答处理方法及相关产品 |
CN111401033A (zh) * | 2020-03-19 | 2020-07-10 | 北京百度网讯科技有限公司 | 事件抽取方法、事件抽取装置和电子设备 |
CN111611355A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种对话回复方法、装置、服务器及存储介质 |
CN111611030A (zh) * | 2019-02-22 | 2020-09-01 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN111737443A (zh) * | 2020-08-14 | 2020-10-02 | 支付宝(杭州)信息技术有限公司 | 答案文本的处理方法和装置、关键文本的确定方法 |
CN111767374A (zh) * | 2019-03-29 | 2020-10-13 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和机器可读介质 |
CN112182179A (zh) * | 2020-09-27 | 2021-01-05 | 北京字节跳动网络技术有限公司 | 实体问答处理方法、装置、电子设备和存储介质 |
CN112214692A (zh) * | 2019-07-11 | 2021-01-12 | 北京搜狗科技发展有限公司 | 基于输入法的数据处理方法、装置和机器可读介质 |
WO2021159632A1 (zh) * | 2020-02-13 | 2021-08-19 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备及计算机存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103124980A (zh) * | 2010-09-24 | 2013-05-29 | 国际商业机器公司 | 包括从多个文档段收集答案的提供问题答案 |
CN103425635A (zh) * | 2012-05-15 | 2013-12-04 | 北京百度网讯科技有限公司 | 一种答案推荐方法和装置 |
CN103455497A (zh) * | 2012-05-29 | 2013-12-18 | 百度在线网络技术(北京)有限公司 | 一种提供整合的搜索结果的方法以及系统 |
CN103744881A (zh) * | 2013-12-20 | 2014-04-23 | 百度在线网络技术(北京)有限公司 | 一种问答平台的问题分发方法和问题分发系统 |
CN106095872A (zh) * | 2016-06-07 | 2016-11-09 | 北京高地信息技术有限公司 | 用于智能问答系统的答案排序方法及装置 |
CN107609056A (zh) * | 2017-08-25 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 一种基于图片识别的问答处理方法与设备 |
-
2018
- 2018-02-09 CN CN201810136733.6A patent/CN108446320A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103124980A (zh) * | 2010-09-24 | 2013-05-29 | 国际商业机器公司 | 包括从多个文档段收集答案的提供问题答案 |
CN103425635A (zh) * | 2012-05-15 | 2013-12-04 | 北京百度网讯科技有限公司 | 一种答案推荐方法和装置 |
CN103455497A (zh) * | 2012-05-29 | 2013-12-18 | 百度在线网络技术(北京)有限公司 | 一种提供整合的搜索结果的方法以及系统 |
CN103744881A (zh) * | 2013-12-20 | 2014-04-23 | 百度在线网络技术(北京)有限公司 | 一种问答平台的问题分发方法和问题分发系统 |
CN106095872A (zh) * | 2016-06-07 | 2016-11-09 | 北京高地信息技术有限公司 | 用于智能问答系统的答案排序方法及装置 |
CN107609056A (zh) * | 2017-08-25 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 一种基于图片识别的问答处理方法与设备 |
Non-Patent Citations (1)
Title |
---|
孙宏: ""基于互联网的自动问答答案抽取的研究"", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611030A (zh) * | 2019-02-22 | 2020-09-01 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN111611355A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种对话回复方法、装置、服务器及存储介质 |
CN110012359B (zh) * | 2019-03-25 | 2021-10-22 | 北京小米移动软件有限公司 | 答案提示方法及装置 |
CN110012359A (zh) * | 2019-03-25 | 2019-07-12 | 北京小米移动软件有限公司 | 答案提示方法及装置 |
CN111767374A (zh) * | 2019-03-29 | 2020-10-13 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和机器可读介质 |
CN110177284A (zh) * | 2019-05-23 | 2019-08-27 | 北京达佳互联信息技术有限公司 | 信息展示方法、装置、电子设备及存储介质 |
CN110297897B (zh) * | 2019-06-21 | 2020-11-24 | 科大讯飞(苏州)科技有限公司 | 问答处理方法及相关产品 |
CN110297897A (zh) * | 2019-06-21 | 2019-10-01 | 科大讯飞(苏州)科技有限公司 | 问答处理方法及相关产品 |
CN112214692A (zh) * | 2019-07-11 | 2021-01-12 | 北京搜狗科技发展有限公司 | 基于输入法的数据处理方法、装置和机器可读介质 |
WO2021159632A1 (zh) * | 2020-02-13 | 2021-08-19 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备及计算机存储介质 |
CN111401033A (zh) * | 2020-03-19 | 2020-07-10 | 北京百度网讯科技有限公司 | 事件抽取方法、事件抽取装置和电子设备 |
KR20210038853A (ko) * | 2020-03-19 | 2021-04-08 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 이벤트 추출 방법, 이벤트 추출 장치 및 전자 기기 |
US11928435B2 (en) | 2020-03-19 | 2024-03-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | Event extraction method, event extraction device, and electronic device |
KR102694584B1 (ko) | 2020-03-19 | 2024-08-12 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 이벤트 추출 방법, 이벤트 추출 장치 및 전자 기기 |
CN111737443A (zh) * | 2020-08-14 | 2020-10-02 | 支付宝(杭州)信息技术有限公司 | 答案文本的处理方法和装置、关键文本的确定方法 |
CN112182179A (zh) * | 2020-09-27 | 2021-01-05 | 北京字节跳动网络技术有限公司 | 实体问答处理方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446320A (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN109522419B (zh) | 会话信息补全方法及装置 | |
CN106649704B (zh) | 一种智能对话控制方法和系统 | |
CN105657535B (zh) | 一种音频识别方法和装置 | |
CN109189987A (zh) | 视频搜索方法和装置 | |
JP2020521210A (ja) | 情報処理方法及び端末、コンピュータ記憶媒体 | |
CN111672098A (zh) | 虚拟对象标记方法、装置、电子设备以及存储介质 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN112104642B (zh) | 一种异常账号确定方法和相关装置 | |
CN110287313A (zh) | 一种风险主体的确定方法及服务器 | |
CN102110399A (zh) | 一种辅助解说的方法、装置及其系统 | |
CN107305438A (zh) | 候选项的排序方法和装置、用于候选项排序的装置 | |
CN108345667A (zh) | 一种搜索方法及相关装置 | |
CN111984749A (zh) | 一种兴趣点排序方法和装置 | |
KR20190118904A (ko) | 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법 | |
CN108241690A (zh) | 一种数据处理方法和装置、一种用于数据处理的装置 | |
CN110765313A (zh) | 网络视频弹幕分类播放方法和系统 | |
CN108073292A (zh) | 一种智能组词方法和装置、一种用于智能组词的装置 | |
CN113591489A (zh) | 语音交互方法、装置及相关设备 | |
CN108628813A (zh) | 处理方法和装置、用于处理的装置 | |
CN107784045A (zh) | 一种快捷回复方法和装置、一种用于快捷回复的装置 | |
CN108628819A (zh) | 处理方法和装置、用于处理的装置 | |
CN111353299A (zh) | 基于人工智能的对话场景确定方法和相关装置 | |
CN108733718A (zh) | 搜索结果的显示方法、装置以及用于搜索结果的显示装置 | |
Boychuk et al. | An exploratory sentiment and facial expressions analysis of data from photo-sharing on social media: The case of football violence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |