CN112818212B - 语料数据采集方法、装置、计算机设备和存储介质 - Google Patents

语料数据采集方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112818212B
CN112818212B CN202010325578.XA CN202010325578A CN112818212B CN 112818212 B CN112818212 B CN 112818212B CN 202010325578 A CN202010325578 A CN 202010325578A CN 112818212 B CN112818212 B CN 112818212B
Authority
CN
China
Prior art keywords
resource
keyword
search result
information
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010325578.XA
Other languages
English (en)
Other versions
CN112818212A (zh
Inventor
袁星宇
黄杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010325578.XA priority Critical patent/CN112818212B/zh
Publication of CN112818212A publication Critical patent/CN112818212A/zh
Application granted granted Critical
Publication of CN112818212B publication Critical patent/CN112818212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请涉及一种语料数据采集方法、装置、计算机设备和存储介质。所述方法包括:获取目标语言的关键词;通过模拟浏览器根据各关键词在目标网站进行搜索,生成各关键词对应的搜索结果页面;对各搜索结果页面进行爬取,获得各关键词的第一资源信息;根据各第一资源信息,采集目标语言的语料数据。采用本方法能够快速获得语料相关的资源信息,提高语料数据采集效率。

Description

语料数据采集方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种语料数据采集方法、装置、计算机设备和存储介质。
背景技术
自动语音识别技术是将音频内容自动转为文本内容的技术,语音识别模型的训练需要相应的训练语料,包括样本音频及其对应的标注文本。其中,训练语料可来源于视频资源,例如从视频网站中采集与目标语料相关的视频资源,并提取视频资源中的音频和字幕分别作为样本音频和对应的标注文本。
传统方法中,通过人工在视频网站上输入关键词进行搜索,从搜索结果中采集相应的视频资源作为训练用的语料数据。然而,传统方法需要人工手动输入关键词进行搜索,导致语料数据采集效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高效率的语料数据采集方法、装置、计算机设备和存储介质。
一种语料数据采集方法,所述方法包括:
获取目标语言的关键词;
通过模拟浏览器根据各所述关键词在目标网站进行搜索,生成各所述关键词对应的搜索结果页面;
对各所述搜索结果页面进行爬取,获得各所述关键词的第一资源信息;
根据各所述第一资源信息,采集所述目标语言的语料数据。
一种语料数据采集装置,所述装置包括:
获取模块,用于获取目标语言的关键词;
生成模块,用于通过模拟浏览器根据各所述关键词在目标网站进行搜索,生成各所述关键词对应的搜索结果页面;
爬取模块,用于对各所述搜索结果页面进行爬取,获得各所述关键词的第一资源信息;
采集模块,根据各所述第一资源信息,采集所述目标语言的语料数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标语言的关键词;
通过模拟浏览器根据各所述关键词在目标网站进行搜索,生成各所述关键词对应的搜索结果页面;
对各所述搜索结果页面进行爬取,获得各所述关键词的第一资源信息;
根据各所述第一资源信息,采集所述目标语言的语料数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标语言的关键词;
通过模拟浏览器根据各所述关键词在目标网站进行搜索,生成各所述关键词对应的搜索结果页面;
对各所述搜索结果页面进行爬取,获得各所述关键词的第一资源信息;
根据各所述第一资源信息,采集所述目标语言的语料数据。
上述语料数据采集方法、装置、计算机设备和存储介质,获取目标语言的关键词;通过模拟浏览器根据各关键词在目标网站进行搜索,生成各关键词对应的搜索结果页面;对各搜索结果页面进行爬取,获得各关键词的第一资源信息;根据各第一资源信息,采集目标语言的语料数据。通过模拟浏览器自动进行关键词搜索,无需人工搜索并对结果进行整理,从而可以减少耗时,快速获得语料相关的资源信息,提高语料数据采集效率。
附图说明
图1为一个实施例中语料数据采集方法的应用环境图;
图2为一个实施例中语料数据采集方法的流程示意图;
图3为一个实施例中语料数据采集方法的流程示意图;
图4为一个实施例中搜索关键词得到的搜索结果页面示意图;
图5为一个实施例中对搜索结果页面进行爬取得到的视频标题和视频链接示意图;
图6为一个实施例中有效视频链接示意图;
图7为一个实施例中语料数据采集装置的结构框图;
图8为一个实施例中计算机设备的内部结构图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请涉及人工智能中的语音技术和机器学习,具体涉及语音识别模型的训练过程中所需要的训练数据,基于本申请采集的语料数据经处理后可用于训练相应语言的语音识别模型。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语料数据采集方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。用户可以通过终端102访问能够提供语料资源的应用平台,服务器104可以是该应用平台所在的服务器。终端102或服务器104获取目标语言的关键词;通过模拟浏览器根据各关键词在目标网站进行搜索,生成各关键词对应的搜索结果页面;对各搜索结果页面进行爬取,获得各关键词的第一资源信息;根据各第一资源信息,采集目标语言的语料数据。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本申请实施例中语料数据采集方法可以由终端102来执行,也可以由服务器104来执行,还可以是由终端102和服务器104共同执行。具体地,终端102执行本申请实施例中语料数据采集方法可以通过处理器来执行。
在一个实施例中,如图2所示,提供了一种语料数据采集方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤S202至步骤S208。
S202,获取目标语言的关键词。
其中,目标语言表示待采集的语料数据所属的语言,关键词可以来源于目标语言的字库。举例来说,若待采集的是粤语语料数据,即目标语言为粤语,则可以通过粤语字库获得粤语关键词,具体地,从粤语字库中选取多个粤语关键词,可以将粤语字库中的每一个字分别作为一个粤语关键词,也可以从粤语字库中选取常用的粤语字,将每一个常用的粤语字分别作为一个粤语关键词。
S204,通过模拟浏览器根据各关键词在目标网站进行搜索,生成各关键词对应的搜索结果页面。
其中,模拟浏览器可以模拟用户进行相关的浏览器操作,例如模拟用户打开浏览器、在搜索框输入关键词并点击搜索按钮的操作,可以通过应用程序测试工具(如Selenium)实现。目标网站表示能够提供语料资源的网站,例如视频网站,视频网站中的视频资源可以作为语料资源。
具体地,可以通过模拟浏览器访问视频网站,分别将各关键词自动填充到视频网站的搜索框中并发出搜索指令,待搜索完成后,展示各关键词对应的视频搜索结果页面,每个关键词对应的视频搜索结果页面展示了该关键词命中的各视频资源的标题、封面图片等信息。
S206,对各搜索结果页面进行爬取,获得各关键词的第一资源信息。
其中,每个关键词的第一资源信息包含该关键词命中的各资源的相关信息,相关信息具体可以包括资源链接,通过该资源链接可以获取相应的资源。对各搜索结果页面进行爬取时,具体可以通过爬虫工具(如Scrapy),根据实际需要提取搜索结果页面对应的源代码中的结构性数据,以获得相应的资源信息。
S208,根据各第一资源信息,采集目标语言的语料数据。
在获得各关键词的第一资源信息之后,根据各第一资源信息可以获得各关键词命中的资源,各关键词命中的资源即可作为待采集的语料数据来源。例如,若第一资源信息包含视频资源的链接,通过各链接可以获得相应的视频资源,视频资源中的音频数据和字幕数据可以作为训练用的语料数据。
上述语料数据采集方法中,获取目标语言的关键词;通过模拟浏览器根据各关键词在目标网站进行搜索,生成各关键词对应的搜索结果页面;对各搜索结果页面进行爬取,获得各关键词的第一资源信息;根据各第一资源信息,采集目标语言的语料数据。通过模拟浏览器自动进行关键词搜索,无需人工搜索并对结果进行整理,从而可以减少耗时,快速获得语料相关的资源信息,提高语料数据采集效率。
在一个实施例中,通过模拟浏览器根据各关键词在目标网站进行搜索,生成各关键词对应的搜索结果页面的步骤,具体可以包括:通过模拟浏览器向目标网站后台发送包含各关键词的搜索指令;通过模拟浏览器展示目标网站后台响应于各搜索指令返回的搜索结果对应的页面。
具体地,在获得目标语言的关键词之后,可以将各关键词插入到预设列表中,以文本格式进行保存,生成关键词文档。打开模拟浏览器后,通过预设脚本按照顺序读取关键词文档的关键词,并将其自动填充到目标网站的搜索框中,向目标网站后台发送包含各关键词的搜索指令,待接收到目标网站后台响应于各搜索指令返回的搜索结果后,在模拟浏览器中展示相应的搜索结果页面。
本实施例中,通过模拟浏览器和脚本设计自动读取关键词进行搜索,无需人工手动输入关键词进行搜索,从而可节省人力成本,且搜索效率相较人工搜索大大提高。
在一个实施例中,第一资源信息包括第一资源标题信息和第一资源链接信息,第一资源标题信息包括对应的关键词命中的各资源的第一资源标题,第一资源链接信息包括与各第一资源标题关联的第一资源链接。每个关键词经搜索后可能命中多个资源,从每个资源的信息中获取相应的资源标题和资源链接,从而每个关键词的第一资源标题信息包括该关键词命中的所有资源的资源标题,每个关键词的第一资源链接信息包括该关键词命中的所有资源的资源链接。
对各搜索结果页面进行爬取,获得各关键词的第一资源信息的步骤,具体可以包括:根据各搜索结果页面的标题位置,对各搜索结果页面进行爬取,获得各关键词的第一资源标题信息;根据各搜索结果页面的子链位置,对各搜索结果页面进行爬取,获得各关键词的第一资源链接信息。
在获得各关键词对应的搜索结果页面之后,通过爬虫工具按照一定的规则从搜索结果页面对应的源代码中提取相应的信息。在一个实施例中,可以通过Xpath查找搜索结果页面相应位置的资源信息,Xpath表示XML路径语言(XML Path Language),是一种用来确定XML(可扩展标记语言)文档中某部分位置的语言。具体地,可以通过Scrapy爬虫架构,按照标题Xpath规则获取相应的资源标题,按照子链Xpath规则获取相应的资源链接(如URL,统一资源定位符),获得每个关键词命中的各资源标题和各资源链接后,可以进一步将每个关键词的第一资源标题信息和第一资源链接信息以文本格式进行存储,并以各关键词的名称进行命名。
本实施例中,通过爬取搜索结果页面获得资源标题信息和资源链接信息,可以快速获得后续采集语料数据所需要的资源信息,提高信息处理效率。
在一个实施例中,根据各第一资源信息,采集目标语言的语料数据的步骤,具体可以包括:对各关键词的第一资源信息进行筛选,获得各关键词的第二资源链接信息;根据各第二资源链接信息,采集目标语言的语料数据。
在根据关键词在目标网站进行搜索时,由于目标网站的加权搜索算法,导致搜索结果的有效性不高,即搜索结果与关键词的关联度不高。举例来说,假设目标语言为粤语,采用粤语关键词在视频网站进行搜索,视频网站返回的搜索结果可能包含与该粤语关键词相关的中文视频甚至外文视频,导致搜索到的视频资源可能存在大量的非粤语视频,因此需要对这些非粤语视频进行过滤,以提高视频资源与目标语言的匹配度。
本实施例中,对第一资源信息进行筛选,可以筛选掉第一资源信息中与目标语言不匹配的资源信息,经筛选后获得的第二资源链接信息中,与目标语言相匹配的资源链接占比高,从而提高资源链接的有效性。
在一个实施例中,对各关键词的第一资源信息进行筛选,获得各关键词的第二资源链接信息,包括:根据预设字符对各关键词的第一资源标题信息进行筛选,获得各关键词的第二资源标题信息;根据第二资源标题信息中的各资源标题关联的资源链接,确定各关键词的第二资源链接信息。
其中,预设字符可以是目标语言的字符,根据预设字符对第一资源标题信息进行筛选,可以有效筛选掉第一资源标题信息中与目标语言不匹配的资源标题,同时将这些资源标题关联的资源链接删除。举例来说,某个关键词的第一资源标题信息包括100个资源标题(用Ti表示,i=1,2,…,100),第一资源链接信息包括100个资源链接(用Hi表示,i=1,2,…,100),Ti与Hi一一关联,根据预设字符对Ti进行筛选后,假设筛选掉Tx(x=70~100),则该关键词的第二资源标题信息包括Ty(y=1~69),相应地删除Hx(x=70~100),则该关键词的第二资源链接信息包括Hy(y=1~69)。
本实施例中,根据预设字符对第一资源标题信息进行筛选,由于资源标题可以体现资源的核心内容,从而通过对资源标题进行筛选,可以更迅速以及更准确地筛选掉与目标语言不匹配的资源链接,进一步提高资源链接的有效性。
在一个实施例中,预设字符包括目标语言的常用字符;根据预设字符对各关键词的第一资源标题信息进行筛选,获得各关键词的第二资源标题信息,包括:对于各关键词的第一资源标题信息中的各第一资源标题,若其不包含任意一个常用字符,则删除该第一资源标题及其关联的第一资源链接,若其包含任意一个常用字符,则保留该第一资源标题及其关联的第一资源链接;根据各关键词所有保留的第一资源标题,确定各关键词的第二资源标题信息。
举例来说,目标语言为粤语时,常用字符可以是在粤语场景下字频较高的字,具体可以包括以下粤语字:佢,乜,嘅,嬲,係,咁,哋,睇,啲,冧,冇,惗,咩,嗻,嗟,嚟,叻,喺,抦,俾,噏,掟,揾,嗮,攞,摞,咗,疴,拗,乸,啖,唓,嘢,瞓。
当搜索的资源为视频资源时,可以理解,若视频资源标题包含任意一个上述粤语字中,则其对应的视频为粤语视频的可能性较大,若视频资源标题不包含任意一个上述粤语字,则其对应的视频为粤语视频的可能性较小,从而可以通过视频资源标题中是否包含上述粤语字来判断对应的视频是否为粤语视频,继而对视频资源标题进行筛选。例如,某个粤语关键词的第一资源标题信息包括100个视频资源标题(用Ti表示,i=1,2,…,100),假设Tx(x=70~100)不包含任意一个上述粤语字,Ty(y=1~69)包含了至少一个上述粤语字,则删除Tx(x=70~100),保留Ty(y=1~69),保留的Ty(y=1~69)即为该粤语关键词的第二资源标题信息。
本实施例中,根据目标语言的常用字符对第一资源标题信息进行筛选,将其中不包含任一常用字符的资源标题及其关联的资源链接删除,从而可以更有效地删除与目标语言不匹配的资源链接,进一步提高资源链接的有效性。
在一个实施例中,根据各第二资源链接信息,采集目标语言的语料数据的步骤,具体可以包括:对各关键词的第二资源链接信息进行整合和去重处理,获得第三资源链接信息;根据第三资源链接信息,采集目标语言的语料数据。
由于不同的关键词可能会命中同一个资源,因此不同的关键词的第二资源链接信息中可能包含相同的资源链接,因此在对所有关键词的第二资源链接信息整合汇总时进行去重处理,以删除第二资源链接信息中重复的资源链接,获得第三资源链接信息,将第三资源链接信息以文本格式进行存储,便于后续的语料数据采集。
本实施例中,通过对资源链接进行去重处理,可以减少占用存储资源,同时避免后续对于同一资源的重复处理,提高处理效率。
在一个实施例中,如图3所示,提供了一种语料数据采集方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤S301至步骤S309。
S301,获取目标语言的关键词。
S302,通过模拟浏览器向目标网站后台发送包含各关键词的搜索指令。
S303,通过模拟浏览器展示目标网站后台响应于各搜索指令返回的搜索结果对应的页面。
S304,根据各搜索结果页面的标题位置,对各搜索结果页面进行爬取,获得各关键词的第一资源标题信息。
S305,根据各搜索结果页面的子链位置,对各搜索结果页面进行爬取,获得各关键词的第一资源链接信息。
S306,根据预设字符对各关键词的第一资源标题信息进行筛选,获得各关键词的第二资源标题信息。
S307,根据第二资源标题信息中的各资源标题关联的资源链接,确定各关键词的第二资源链接信息。
S308,将各关键词的第二资源链接信息进行整合和去重处理,获得第三资源链接信息。
S309,根据第三资源链接信息,采集目标语言的语料数据。
关于步骤S301~S309的具体描述可以参见前文实施例,在此不再赘述。本实施例中,通过模拟浏览器自动进行关键词搜索,爬取搜索结果获得对应的资源标题和资源链接,并通过资源标题过滤策略,筛选出与目标语言的匹配度高的资源链接,从而提高搜索效率和资源链接有效性,相较于人工直接搜索获得的资源链接,搜索效率可提高200倍,资源链接有效性可提高40%。
本申请还提供一种应用场景,该应用场景应用上述的语料数据采集方法。具体地,该语料数据采集方法在该应用场景的应用如下:
建立文本格式(txt)的关键词列表,其中插入需要搜索的关键词,通过Selenium模拟打开浏览器的操作,通过脚本按照顺序读取关键词列表中的关键词,并将其填充到视频网站的搜索框中,再模拟点击搜索按钮,得到关键词对应的搜索结果。如图4所示,展示了以“咏史”作为关键词在一视频网站进行搜索得到的搜索结果页面示意图,待该搜索结果页面展示出来后,通过Scrapy爬虫框架按照固定的标题Xpath规则以及子链Xpath规则,获取相应的标题文本内容以及视频链接,并将获取到的结果按照关键词、视频标题、视频链接的结果存储于单独的txt文件(假如命名为文件1)中。如图5所示,展示了对“咏史”搜索结果页面进行爬取得到的视频标题和视频链接示意图,通过粤语特殊字符(如佢,乜,嘅,嬲,係,咁,哋,睇,啲,冧,冇,惗,咩,嗻,嗟,嚟,叻,喺,抦,俾,噏,掟,揾,嗮,攞,摞,咗,疴,拗,乸,啖,唓,嘢,瞓)对文件1中的视频标题进行筛选,将其中不包含上述任意一个粤语特殊字符的视频标题及其关联的视频链接删除,并将保留下来的有效视频链接存储于另一个txt文件中。最后对关键词列表中所有关键词对应的有效视频链接进行去重,然后汇总到一个txt文件中,如图6所示,展示了汇总后的有效视频链接示意图。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种语料数据采集装置700,该语料数据采集装置700可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块710、生成模块720、爬取模块730和采集模块,其中:
获取模块710,用于获取目标语言的关键词。
生成模块720,用于通过模拟浏览器根据各关键词在目标网站进行搜索,生成各关键词对应的搜索结果页面。
爬取模块730,用于对各搜索结果页面进行爬取,获得各关键词的第一资源信息。
采集模块740,用于根据各第一资源信息,采集目标语言的语料数据。
在一个实施例中,生成模块720在通过模拟浏览器根据各关键词在目标网站进行搜索,生成各关键词对应的搜索结果页面时,具体用于:通过模拟浏览器向目标网站后台发送包含各关键词的搜索指令;通过模拟浏览器展示目标网站后台响应于各搜索指令返回的搜索结果对应的页面。
在一个实施例中,第一资源信息包括第一资源标题信息和第一资源链接信息,第一资源标题信息包括对应的关键词命中的各资源的第一资源标题,第一资源链接信息包括与各第一资源标题关联的第一资源链接;爬取模块730在对各搜索结果页面进行爬取,获得各关键词的第一资源信息时,具体用于:根据各搜索结果页面的标题位置,对各搜索结果页面进行爬取,获得各关键词的第一资源标题信息;根据各搜索结果页面的子链位置,对各搜索结果页面进行爬取,获得各关键词的第一资源链接信息。
在一个实施例中,采集模块740包括筛选单元和采集单元,筛选单元用于对各关键词的第一资源信息进行筛选,获得各关键词的第二资源链接信息;采集单元用于根据各第二资源链接信息,采集目标语言的语料数据。
在一个实施例中,筛选单元在对各关键词的第一资源信息进行筛选,获得各关键词的第二资源链接信息时,具体用于:根据预设字符对各关键词的第一资源标题信息进行筛选,获得各关键词的第二资源标题信息;根据第二资源标题信息中的各资源标题关联的资源链接,确定各关键词的第二资源链接信息。
在一个实施例中,预设字符包括目标语言的常用字符;筛选单元在根据预设字符对各关键词的第一资源标题信息进行筛选,获得各关键词的第二资源标题信息时,具体用于:对于各关键词的第一资源标题信息中的各第一资源标题,若其不包含任意一个常用字符,则删除该第一资源标题及其关联的第一资源链接,若其包含任意一个常用字符,则保留该第一资源标题及其关联的第一资源链接;根据各关键词所有保留的第一资源标题,确定各关键词的第二资源标题信息。
在一个实施例中,采集单元在根据各第二资源链接信息,采集目标语言的语料数据时,具体用于:对各关键词的第二资源链接信息进行整合和去重处理,获得第三资源链接信息;根据第三资源链接信息,采集目标语言的语料数据。
关于语料数据采集装置的具体限定可以参见上文中对于语料数据采集方法的限定,在此不再赘述。上述语料数据采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语料数据采集方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语料数据采集方法。
本领域技术人员可以理解,图8或图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要理解的是,上述实施例中的术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种语料数据采集方法,其特征在于,所述方法包括:
获取目标语言的多个关键词和多个常用字符;
通过模拟浏览器根据各所述关键词在目标网站进行搜索,生成各所述关键词对应的搜索结果页面;
针对每一所述关键词,对所述关键词对应的搜索结果页面进行爬取,获得所述关键词的第一资源信息;所述第一资源信息包括第一资源标题信息和第一资源链接信息,所述第一资源标题信息包括所述关键词命中的各网站资源各自的第一资源标题,所述第一资源链接信息包括与各所述第一资源标题各自关联的第一资源链接;
对于每一所述第一资源标题,若所述第一资源标题中包含所述多个常用字符中的任意一个,则保留所述第一资源标题、以及与所述第一资源标题关联的第一资源链接;
从保留的各所述第一资源链接各自对应的网站资源中,采集所述目标语言的语料数据;所述语料数据,包括样本音频以及所述样本音频对应的标注文本。
2.根据权利要求1所述的方法,其特征在于,通过模拟浏览器根据各所述关键词在目标网站进行搜索,生成各所述关键词对应的搜索结果页面,包括:
通过模拟浏览器向目标网站后台发送包含各所述关键词的搜索指令;
通过所述模拟浏览器展示所述目标网站后台响应于各所述搜索指令返回的搜索结果对应的页面。
3.根据权利要求1所述的方法,其特征在于,所述对所述关键词对应的搜索结果页面进行爬取,获得所述关键词的第一资源信息,包括:
根据所述关键词对应的搜索结果页面的标题位置,对各所述搜索结果页面进行爬取,获得所述关键词的第一资源标题信息;
根据所述搜索结果页面的子链位置,对各所述搜索结果页面进行爬取,获得所述关键词的第一资源链接信息。
4.根据权利要求1所述的方法,其特征在于,所述从保留的各所述第一资源链接各自对应的网站资源中,采集所述目标语言的语料数据,包括:
对各所述关键词的第二资源链接信息进行整合和去重处理,获得第三资源链接信息;所述第二资源链接信息为基于所述多个常用字符进行筛选后保留的第一资源链接信息;
从所述第三资源链接信息中每一第三资源链接各自对应的网站资源中,采集所述目标语言的语料数据。
5.一种语料数据采集装置,其特征在于,所述装置包括:
获取模块,用于获取目标语言的多个关键词和多个常用字符;
生成模块,用于通过模拟浏览器根据各所述关键词在目标网站进行搜索,生成各所述关键词对应的搜索结果页面;
爬取模块,用于针对每一所述关键词,对所述关键词对应的搜索结果页面进行爬取,获得所述关键词的第一资源信息;所述第一资源信息包括第一资源标题信息和第一资源链接信息,所述第一资源标题信息包括所述关键词命中的各网站资源各自的第一资源标题,所述第一资源链接信息包括与各所述第一资源标题各自关联的第一资源链接;
筛选单元,用于对于每一所述第一资源标题,若所述第一资源标题中包含所述多个常用字符中的任意一个,则保留所述第一资源标题、以及与所述第一资源标题关联的第一资源链接;
采集单元,用于从保留的各所述第一资源链接各自对应的网站资源中,采集所述目标语言的语料数据;所述语料数据,包括样本音频以及所述样本音频对应的标注文本。
6.根据权利要求5所述的装置,其特征在于,所述生成模块具体用于:
通过模拟浏览器向目标网站后台发送包含各所述关键词的搜索指令;
通过所述模拟浏览器展示所述目标网站后台响应于各所述搜索指令返回的搜索结果对应的页面。
7.根据权利要求5所述的装置,其特征在于,所述爬取模块具体用于:
根据所述关键词对应的搜索结果页面的标题位置,对各所述搜索结果页面进行爬取,获得所述关键词的第一资源标题信息;
根据所述搜索结果页面的子链位置,对各所述搜索结果页面进行爬取,获得所述关键词的第一资源链接信息。
8.根据权利要求5所述的装置,其特征在于,所述采集单元具体用于:
对各所述关键词的第二资源链接信息进行整合和去重处理,获得第三资源链接信息;所述第二资源链接信息为基于所述多个常用字符进行筛选后保留的第一资源链接信息;
从所述第三资源链接信息中每一第三资源链接各自对应的网站资源中,采集所述目标语言的语料数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述方法的步骤。
CN202010325578.XA 2020-04-23 2020-04-23 语料数据采集方法、装置、计算机设备和存储介质 Active CN112818212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010325578.XA CN112818212B (zh) 2020-04-23 2020-04-23 语料数据采集方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010325578.XA CN112818212B (zh) 2020-04-23 2020-04-23 语料数据采集方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112818212A CN112818212A (zh) 2021-05-18
CN112818212B true CN112818212B (zh) 2023-10-13

Family

ID=75852983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010325578.XA Active CN112818212B (zh) 2020-04-23 2020-04-23 语料数据采集方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112818212B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100073164A (ko) * 2008-12-22 2010-07-01 한국전자통신연구원 대역어 사전 특화 장치 및 그 방법
CN103020043A (zh) * 2012-11-16 2013-04-03 哈尔滨工业大学 一种面向web双语平行语料资源的分布式采集系统
CN103164395A (zh) * 2011-12-19 2013-06-19 新疆信息产业有限责任公司 汉柯电子辞典及其自动转译汉柯语的方法
CN105022827A (zh) * 2015-07-23 2015-11-04 合肥工业大学 一种面向领域主题的Web新闻动态聚合方法
CN105404688A (zh) * 2015-12-11 2016-03-16 北京奇虎科技有限公司 搜索方法和搜索设备
WO2016058425A1 (zh) * 2014-10-17 2016-04-21 百度在线网络技术(北京)有限公司 一种语音搜索方法、装置、设备和计算机存储介质
CN105893622A (zh) * 2016-04-29 2016-08-24 深圳市中润四方信息技术有限公司 一种聚合搜索方法及聚合搜索系统
CN106407362A (zh) * 2016-09-08 2017-02-15 福建中金在线信息科技有限公司 一种关键词信息检索的方法及装置
CN106777261A (zh) * 2016-12-28 2017-05-31 深圳市华傲数据技术有限公司 基于多源异构数据集的数据查询方法及装置
CN106980664A (zh) * 2017-03-21 2017-07-25 苏州大学 一种双语可比较语料挖掘方法及装置
CN107506302A (zh) * 2017-08-23 2017-12-22 杭州安恒信息技术有限公司 基于selenium验证模糊搜索多项内容准确性的方法和装置
CN107656997A (zh) * 2017-09-20 2018-02-02 广东欧珀移动通信有限公司 自然语言处理方法、装置、存储介质及终端设备
CN108256084A (zh) * 2018-01-22 2018-07-06 深圳市小满科技有限公司 搜索方法及装置、计算机装置及存储介质
CN109190062A (zh) * 2018-08-03 2019-01-11 平安科技(深圳)有限公司 目标语料数据的爬取方法、装置及存储介质
CN110020049A (zh) * 2017-10-27 2019-07-16 北京国双科技有限公司 域名翻译和查询的方法和装置
CN110110156A (zh) * 2019-04-04 2019-08-09 平安科技(深圳)有限公司 行业舆情监控方法、装置、计算机设备及存储介质
CN110413859A (zh) * 2019-06-27 2019-11-05 平安科技(深圳)有限公司 网页信息搜索方法、装置、计算机设备及存储介质
CN110717337A (zh) * 2019-09-29 2020-01-21 北京声智科技有限公司 信息处理方法、装置、计算设备和存储介质
CN110968684A (zh) * 2019-12-18 2020-04-07 腾讯科技(深圳)有限公司 一种信息处理方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386476B2 (en) * 2008-05-20 2013-02-26 Gary Stephen Shuster Computer-implemented search using result matching
RU2583716C2 (ru) * 2013-12-18 2016-05-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Метод построения и обнаружения тематической структуры корпуса
CN110111780B (zh) * 2018-01-31 2023-04-25 阿里巴巴集团控股有限公司 数据处理方法和服务器
CN110633456B (zh) * 2019-09-19 2023-04-07 腾讯科技(深圳)有限公司 语种识别方法、装置、服务器及存储介质

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100073164A (ko) * 2008-12-22 2010-07-01 한국전자통신연구원 대역어 사전 특화 장치 및 그 방법
CN103164395A (zh) * 2011-12-19 2013-06-19 新疆信息产业有限责任公司 汉柯电子辞典及其自动转译汉柯语的方法
CN103020043A (zh) * 2012-11-16 2013-04-03 哈尔滨工业大学 一种面向web双语平行语料资源的分布式采集系统
WO2016058425A1 (zh) * 2014-10-17 2016-04-21 百度在线网络技术(北京)有限公司 一种语音搜索方法、装置、设备和计算机存储介质
CN105022827A (zh) * 2015-07-23 2015-11-04 合肥工业大学 一种面向领域主题的Web新闻动态聚合方法
CN105404688A (zh) * 2015-12-11 2016-03-16 北京奇虎科技有限公司 搜索方法和搜索设备
CN105893622A (zh) * 2016-04-29 2016-08-24 深圳市中润四方信息技术有限公司 一种聚合搜索方法及聚合搜索系统
CN106407362A (zh) * 2016-09-08 2017-02-15 福建中金在线信息科技有限公司 一种关键词信息检索的方法及装置
CN106777261A (zh) * 2016-12-28 2017-05-31 深圳市华傲数据技术有限公司 基于多源异构数据集的数据查询方法及装置
CN106980664A (zh) * 2017-03-21 2017-07-25 苏州大学 一种双语可比较语料挖掘方法及装置
CN107506302A (zh) * 2017-08-23 2017-12-22 杭州安恒信息技术有限公司 基于selenium验证模糊搜索多项内容准确性的方法和装置
CN107656997A (zh) * 2017-09-20 2018-02-02 广东欧珀移动通信有限公司 自然语言处理方法、装置、存储介质及终端设备
CN110020049A (zh) * 2017-10-27 2019-07-16 北京国双科技有限公司 域名翻译和查询的方法和装置
CN108256084A (zh) * 2018-01-22 2018-07-06 深圳市小满科技有限公司 搜索方法及装置、计算机装置及存储介质
CN109190062A (zh) * 2018-08-03 2019-01-11 平安科技(深圳)有限公司 目标语料数据的爬取方法、装置及存储介质
CN110110156A (zh) * 2019-04-04 2019-08-09 平安科技(深圳)有限公司 行业舆情监控方法、装置、计算机设备及存储介质
CN110413859A (zh) * 2019-06-27 2019-11-05 平安科技(深圳)有限公司 网页信息搜索方法、装置、计算机设备及存储介质
CN110717337A (zh) * 2019-09-29 2020-01-21 北京声智科技有限公司 信息处理方法、装置、计算设备和存储介质
CN110968684A (zh) * 2019-12-18 2020-04-07 腾讯科技(深圳)有限公司 一种信息处理方法、装置、设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A Corpus Factory for many languages;Adam Kilgarriff 等;Proceedings of the International Conference on Language Resources and Evaluation;1-7 *
基于网页的语料库自动生成;曹英;徐卫;;电脑知识与技术(第23期);52-53 *
基于语义分析的网络爬虫模型的研究;刘炜;张红云;熊前兴;;科技信息(第35期);805-806 *
基于非平行语料的双语词典构建;张檬;刘洋;孙茂松;;中国科学:信息科学(05) *
汉维可比语料数据集;冯韬 等;中国科学数据(中英文网络版);第5卷(第01期);167-172 *
汉英跨语言网址搜索引擎的设计与实现;朱培焱;中国优秀硕士学位论文全文数据库信息科技集(第02期);i138-2542 *

Also Published As

Publication number Publication date
CN112818212A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
US11514247B2 (en) Method, apparatus, computer device and readable medium for knowledge hierarchical extraction of a text
CN111026861B (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
CN106919652B (zh) 基于多源多视角直推式学习的短视频自动标注方法与系统
US20060218192A1 (en) Method and System for Providing Information Services Related to Multimodal Inputs
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
Nian et al. Learning explicit video attributes from mid-level representation for video captioning
US8370323B2 (en) Providing information services related to multimodal inputs
Li et al. Bundled object context for referring expressions
CN111723784A (zh) 一种风险视频识别方法、装置和电子设备
CN114611498A (zh) 标题生成方法、模型训练方法及装置
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN116796857A (zh) 一种llm模型训练方法、装置、设备及其存储介质
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN116541492A (zh) 一种数据处理方法及相关设备
Phan et al. Building a Vietnamese question answering system based on knowledge graph and distributed CNN
Moncla et al. Mapping urban fingerprints of odonyms automatically extracted from French novels
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN111767720B (zh) 一种标题生成方法、计算机及可读存储介质
CN110580294B (zh) 实体融合方法、装置、设备及存储介质
Singh et al. Generation and evaluation of hindi image captions of visual genome
CN112818212B (zh) 语料数据采集方法、装置、计算机设备和存储介质
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN114218364A (zh) 问答知识库扩充方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40048670

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant