CN112163137A - 一种基于数据采集和信息抽取的房屋租赁信息搜索方法 - Google Patents
一种基于数据采集和信息抽取的房屋租赁信息搜索方法 Download PDFInfo
- Publication number
- CN112163137A CN112163137A CN202010910483.4A CN202010910483A CN112163137A CN 112163137 A CN112163137 A CN 112163137A CN 202010910483 A CN202010910483 A CN 202010910483A CN 112163137 A CN112163137 A CN 112163137A
- Authority
- CN
- China
- Prior art keywords
- information
- crawler
- house
- character
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013136 deep learning model Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 12
- 238000012790 confirmation Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 2
- 230000009193 crawling Effects 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0645—Rental transactions; Leasing transactions
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据采集和信息抽取的房屋租赁信息搜索方法,其步骤包括:1)采集网络上的房屋租赁信息,将所述房屋租赁信息按字段进行归类并按类别存储在数据库中;2)对用户输入的检索信息进行字段抽取,其中首先对检索信息进行基于规则模型的信息抽取,获取匹配的字段信息;然后对检索信息进行基于深度学习模型的信息抽取,获取抽象信息,将该抽象信息分配到对应的字段归类中并保存在用户查询信息数据库中;3)利用所获取信息的类别搜索该数据库对应的归类中的房源信息,并将查询到的满足条件的信息反馈给对应用户;若所获取信息涉及多个类别,则搜索该数据库每一对应归类中的房源信息将各归类中查询到的满足条件的信息反馈给用户。
Description
技术领域
本发明属于一种互联网信息检索方法,具体地说是一种基于数据采集和信息抽取的房屋租赁信息搜索方法。
背景技术
对于房屋租赁行业而言,用户常利用互联网进行房源信息搜索,以及时、全面、高效的获取房源信息。但由于互联网上房源信息数量巨大,给相关的数据采集工作带来了很大的负担,极易造成所需数据采集不完全的问题;加之不同领域对同一或相似关键字的理解歧义,导致搜索结果包含大量干扰信息,需要用户进行手动鉴别,使得有效信息获取率降低,甚至难以获得有效信息,导致用户无法快速全面的获取有用的租房信息,影响其用户体验感。
上述搜索场景可归纳为两个问题:数据采集不完全和信息抽取效率低。对于数据采集不完全问题,一种解决方式为利用用户的搜索主题设定,有目的的采集与主题相关的信息,该方法可以保证数据采集的广度,但消耗了大量的软硬件资源,而且对于用户常用的搜索主题,仍需要不断重复搜索,降低了数据采集效率,另一种解决方式是针对用户搜索习惯进行个性化信息采集,该方法提高了数据采集的针对性,但也限制了其信息采集的覆盖范围,造成信息采集不全面的问题。对于信息抽取效率低问题,一种方式是基于网页结构的信息抽取,该方法通过将HTML文档转化成DOM树,在DOM数结构下进行信息抽取,该方法的优点是操作较为简单,但需要用较长时间识别确定网页页面结构的定位目标信息,效率较低;另一种方法是基于ontology的信息抽取,其优点是不再依赖网页结果,但需要大量人工介入,属于一种半自动化的信息抽取方式。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于爬虫的数据采集和基于深度学习的信息抽取房屋租赁信息搜索方法,以解决传统搜索方法在房屋租赁信息搜索时搜索数据不全面、搜索结果针对性差、搜索过程效率低的问题,改善用户信息检索体验感。
本发明利用Scrapy爬虫框架和Scrapy-redis扩展组件建立数据采集模块按固定周期爬取互联网上房屋租赁信息并存储在原始数据库中,保证搜索信息的全覆盖性;并根据检索字段特点,分别采用基于规则模型和基于深度学习模型的信息抽取方法,自动识别用户搜索主题信息,提高检索效率,并根据用户搜索习惯建立针对性的数据信息库,实现房屋租赁信息的快速、高效检索,提升用户信息检索体验。
为了解决背景技术所存在的问题,本发明采取以下技术方案:
一种基于数据采集和信息抽取的房屋租赁信息搜索方法,其包括以下步骤:
步骤(1)数据采集及存储:利用数据爬虫抓取网络上的房屋租赁信息,将爬取到的信息按字段进行归类,并存储在原始数据库中;
步骤(2)信息抽取:用户在信息展示平台上输入需要搜索的内容,后台根据检索信息进行字段抽取,首先进行基于规则模型的信息抽取,抽取如房租价格和供需关系等较简单信息,若未完成全部字段的抽取,再进行基于深度学习模型的信息抽取,在房源标题及房源描述等包含大量文字的非结构化数据中搜索并抽取搜索的内容,如地理名和机构名称等抽象信息,并将抽取结果分配到步骤(1)中的归类中,并保存在用户查询信息数据库中;
步骤(3)信息搜索与呈现:利用步骤(2)抽取的字段信息搜索原始数据库对应的归类中的房源信息,并将查询到的满足条件的信息展示给用户,若抽取到多个字段不在同一个归类里,则将各归类中查询到的部分满足条件的信息也都展示给用户。
在步骤(1)中,数据采集模块基于Scrapy爬虫框架和Scrapy-redis扩展组件研发而成,通过Scrapy爬虫框架和Scrapy-redis扩展组件分别实现爬虫控制和分布式数据爬取,提高数据采集的全面性。
在步骤(1)中,多个爬虫节点利用统一爬虫控制器进行控制,爬虫控制器与各爬虫节点间通过基于TCP/IP协议的消息进行通信。
在步骤(2)中,为节约检索资源,提高检索效率,针对待检索字段是否常见、特征是否明显,将信息抽取方式划分为两类:基于规则模型的信息抽取和基于深度学习模型的信息抽取,其中,基于深度学习的信息抽取模型架构采用基于双向长短期记忆模型的字符级中文命名实体识别方法构建。
在步骤(2)中,两类信息抽取方式应用方法为:首先利用数据库中已知的信息进行基于规则模型的信息抽取,抽取如房租价格和供需关系等较简单信息,若未完成全部字段的抽取,再进行基于深度学习模型的信息抽取,抽取如地理名和机构名称等较为抽象的信息。
在步骤(2)中,在完成信息抽取后将字段信息存储在用户查询信息数据库中,再后续用户查询时直接进行调用,增强搜索针对性和快速性。
本发明相较于现有技术有如下有益效果:
采用本发明的房屋租赁信息搜索方法,可以利用数据采集模块周期性爬取互联网上相关房屋租赁信息,保证了检索信息的全面性;同时利用字段将信息进行归类,缩短检索时间;并在用户检索时,根据检索信息特点,利用不同模型进行关键字段提取,并进行存储,提高了用户搜索针对性;最后根据字段的归类,采用字段匹配方式在原始数据库中进行信息提取,更快速的将相关信息提供给用户,进一步提高检索效率。
附图说明
图1为本发明流程图
图2为爬虫信息采集流程图。
图3为基于规则模型的信息抽取流程图。
图4为基于深度学习模型的信息抽取流程图。
具体实施方式
下面结合附图对本发明进行详细描述。
本发明方法流程如图1所示,其主要步骤包括:
步骤一:数据采集及存储
数据采集模块基于Scrapy爬虫框架和Scrapy-redis扩展组件构建而成,分别通过Scrapy爬虫框架和Scrapy-redis分布式扩展组件实现业务逻辑和分布式数据爬取,各爬虫节点由爬虫控制器统一控制,二者通过TCP/IP协议进行通信。附图2所示,数据采集共分为三部分:爬虫控制器对爬虫节点的控制、爬虫信息采集和数据存储,各部分实现方式如下:
(1)爬虫控制器对爬虫节点的控制
①爬虫节点唤醒。爬虫控制器读取设置好的爬虫节点信息,并向各爬虫节点发送确认信息,若某爬虫节点可用,则该节点回复确认消息,若不可用则不回复;
②爬虫节点配置。爬虫控制器将初始URL地址、数据库等配置信息发送给已唤醒的爬虫节点,爬虫节点收到信息后将其同步到本地,并回复确认信息;
③爬虫节点工作。完成节点配置后,爬虫控制器向所有节点发送爬虫激活命令,爬虫开始爬取数据并储存在原始数据库中;
④工作结束。若爬虫节点无法再获取任务或收到爬虫控制器的任务完成消息,爬虫节点工作结束,爬虫引擎状态变更为暂停,等待下一次指令;
⑤周期循环。爬虫控制器设定固定周期(如12h)启动,重复①-④进行原始数据信息爬取,并将信息存储在原始数据库中,保证获取信息的时效性。
(2)爬虫信息采集
①任务生成。爬虫节点收到爬虫控制器的配置信息后,根据URL地址生成爬虫任务并提交给Scrapy引擎,经Scrapy引擎任务去重处理后,重新将去重后的任务下发给各爬虫节点的采集任务队列中,爬虫节点会并发多个任务从队列中请求并执行爬取任务;
②爬取信息。爬虫节点向任务队列的URL地址发起任务请求,得到响应后将任务发给爬虫,爬虫基于任务的类型和目标URL对目标页面进行采集并对响应结果中的HTML文档进行解析,爬取其中的房源信息数据;
③任务反馈。完成爬取任务后,爬虫节点将相应结果生成新的爬取任务并提交回任务队列中。
(3)数据存储
当完成爬取任务后,根据爬取任务对获得的房源信息按预设的归类信息(如房租价格、供需关系、房屋面积等)进行归类,之后按类别存储在原始数据库中,为保证数据搜索的全面性,原始数据库不清空,当搜索到新内容后即加入到原始数据库中,为避免数据库容量过大,定期删除n年前数据,由于房源信息是具有实效的,所以删除久远的房源信息对用户搜索体验影响不大。
步骤二:信息抽取
用户在信息展示平台上输入需要搜索的内容,后台根据检索信息进行字段抽取,信息抽取根据检索信息的复杂度分为两种方法:基于规则模型的信息抽取和基于深度学习模型的信息抽取,两种方法步骤如下:
(1)基于规则模型的信息抽取,如图3所示
①原始信息获取。利用步骤一获取原始房屋租赁信息;
②创建房屋租赁词库。获取房屋租赁信息中常见的词汇和其触发词汇构建基础词典,利用ICTCLAS方法对词库的词汇进行自定义、分词、合并和去重,形成房屋租赁词库;
③信息抽取。利用房屋租赁词库直接抽取检索信息,并输出抽取结果。
(2)基于深度学习模型的信息抽取,如图4所示
基于深度学习模型的信息抽取通过利用改进的基于双向长短期记忆模型的字符级中文命名实体识别方法将检索语句转化为序列标注问题,采用BIESO标记体系标记句子中各个子是否为有用信息的组成,并确定有用信息的边界,其中,B表示有用信息起始第一个字,I表示有用信息内部非起始或结尾的字,E表示有用信息结尾最后一个字,S表示单字组成的有用信息,O表示无用信息,最终提取出有用信息并进行信息抽取。具体实现步骤如下:
①检索信息输入及预处理。设输入中文句子由n个字符组成,定义其序列为x=(x0,x1,...,xn),根据双向长短期记忆模型在其lookup层对每个字符进行初始判断,将字符通过随机初始化或预训练转换成基础词典中已知的字符向量Ci,Ci∈Rm,Rm为基础词典中全部字符,即:
Ci=lookup(xi) (1)
②检索信息处理。将lookup层的字符向量C=(C0,C1,...,Cn)作为双向长短期记忆模型(Bi-LSTM)的输入,Bi-LSTM包括两个层级:前向LSTM层和后向LSTM层,其中,前向LSTM的输入是C的顺序序列,后向LSTM的输入是C的逆序序列,利用深度学习模型对两层序列进行计算,设前向LSTM层输出为前向LSTM层输出为前后向输出组成Bi-LSTM层输出为Hi,则:
(H0,H1,...,Hn)∈Rn×m (3)
③信息评测。对式(3)获得的隐状态序列进行评测,相较于传统的基础词典固定匹配评价方法,设计了一种更灵活的评价方法,具体如下:首先提取句子特征,记为矩阵P=(p0,p1,...,pn)∈Rn×m,将pi∈Rm的第j维视为字符xi分类到基础词典中第j个字符的分值,再对P进行标注,根据预设的分值表,设字xi从标签j转换到标签k的分值为则获取的转移分值矩阵为Ai,这样即可用已标注过的标签对位置进行标注,则模型对句子x的标签合理性打分为:
通过式(4)可知序列分值由每个位置的打分值相加获得,且位置的打分值由LSTM输出P和转移矩阵A共同确定,利用Softmax得到归一化后的概率:
④信息抽取。根据式(5)获得的归一化概率大小,形成基于深度学习模型的信息,概率越大,证明信息抽取效果越好,并针对该基于深度学习模型的信息进行检索,并输出抽取结果。
步骤三:信息搜索与呈现
利用抽取的字段信息对原始数据库中的房源信息进行匹配,并将查询到的满足条件的信息展示给用户。
本发明不仅局限于上述具体实施方式,本领域一般技术人员根据本发明公开的内容,可以采用其它多种具体实施方式实施本发明,因此,凡是采用本发明的设计思路,做一些简单的变化或更改的设计,都落入本发明的保护范围。
Claims (7)
1.一种基于数据采集和信息抽取的房屋租赁信息搜索方法,其步骤包括:
1)采集网络上的房屋租赁信息,将所述房屋租赁信息按字段进行归类并按类别存储在数据库中;
2)对用户输入的检索信息进行字段抽取,其中首先对所述检索信息进行基于规则模型的信息抽取,获取匹配的字段信息;然后对所述检索信息进行基于深度学习模型的信息抽取,获取抽象信息,将该抽象信息分配到对应的字段归类中并保存在用户查询信息数据库中;
3)利用步骤2)所获取信息的类别搜索该数据库对应的归类中的房源信息,并将查询到的满足条件的信息反馈给对应用户;若步骤2)所获取信息涉及多个类别,则搜索该数据库每一对应归类中的房源信息将各归类中查询到的满足条件的信息反馈给用户。
2.如权利要求1所述的方法,其特征在于,对所述检索信息进行基于深度学习模型的信息抽取方法为:
21)设输入的检索信息包括n个字符,定义其序列为x=(x0,x1,...,xn),利用双向长短期记忆模型将每个字符转换成字符向量,得到一序列x对应的字符向量序列C=(C0,C1,...,Cn);其中,第n个字符xn对应的字符向量为Cn;
22)利用双向长短期记忆模型对该字符向量序列C进行计算,输出隐状态序列H=(H0,H1,...,Hn);其中Hn为双向长短期记忆模型对字符向量Cn的输出结果;
23)对获得的隐状态序列H进行评测:首先提取所述检索信息的句子特征,记为矩阵P=(p0,p1,...,pn),pn为字符xn对应的特征向量,将第i个字符xi对应的特征向量pi的第j维作为字符xi分类到基础词典中第j个字符的分值;然后对P进行标注,设字xi从标签j转换到标签k的分值为将获取的转移分值矩阵记为Ai;则对句子x的标签合理性打分为然后计算归一化后的概率
24)根据获得的归一化概率,形成基于深度学习模型的信息并针对该信息进行检索,得到所述复杂信息。
3.如权利要求2所述的方法,其特征在于,获取房屋租赁信息中的常见词汇及其触发词汇构建所述基础词典。
4.如权利要求1所述的方法,其特征在于,采集网络上的房屋租赁信息的方法为:
11)爬虫控制器读取设置好的爬虫节点信息,并向各爬虫节点发送确认信息,若爬虫节点可用,则该爬虫节点回复确认消息给爬虫控制器;
12)爬虫控制器将配置信息发送给可用的爬虫节点,爬虫节点收到配置信息后将其同步到本地,并回复确认信息;
13)爬虫控制器向所有可用爬虫节点发送激活命令,开始爬取数据并储存在数据库中;当爬虫节点无法再获取任务或收到爬虫控制器的任务完成消息后,爬虫节点工作结束。
5.如权利要求4所述的方法,其特征在于,所述爬虫节点收到所述配置信息后,根据所述配置信息中的URL地址生成爬虫任务并提交给Scrapy引擎,经Scrapy引擎进行任务去重处理后执行爬虫任务。
6.如权利要求1所述的方法,其特征在于,所述归类信息包括房租价格、供需关系和房屋面积。
7.一种计算机可读存储介质,其特征在于,存储一计算机程序,所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010910483.4A CN112163137A (zh) | 2020-09-02 | 2020-09-02 | 一种基于数据采集和信息抽取的房屋租赁信息搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010910483.4A CN112163137A (zh) | 2020-09-02 | 2020-09-02 | 一种基于数据采集和信息抽取的房屋租赁信息搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112163137A true CN112163137A (zh) | 2021-01-01 |
Family
ID=73858818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010910483.4A Pending CN112163137A (zh) | 2020-09-02 | 2020-09-02 | 一种基于数据采集和信息抽取的房屋租赁信息搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163137A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010034690A1 (en) * | 2000-02-04 | 2001-10-25 | Ron Joseph | System and method for facilitating transfer of vehicle leases |
CN101158963A (zh) * | 2007-10-31 | 2008-04-09 | 中兴通讯股份有限公司 | 一种情报收集处理和检索系统 |
CN109857990A (zh) * | 2018-12-18 | 2019-06-07 | 重庆邮电大学 | 一种基于文档结构与深度学习的金融类公告信息抽取方法 |
CN110472120A (zh) * | 2019-07-25 | 2019-11-19 | 厦门快商通科技股份有限公司 | 一种基于社交网络的租房信息收集方法及系统 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN110889023A (zh) * | 2019-11-20 | 2020-03-17 | 河海大学常州校区 | 一种elasticsearch的分布式多功能搜索引擎 |
CN111291069A (zh) * | 2018-12-07 | 2020-06-16 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
-
2020
- 2020-09-02 CN CN202010910483.4A patent/CN112163137A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010034690A1 (en) * | 2000-02-04 | 2001-10-25 | Ron Joseph | System and method for facilitating transfer of vehicle leases |
CN101158963A (zh) * | 2007-10-31 | 2008-04-09 | 中兴通讯股份有限公司 | 一种情报收集处理和检索系统 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN111291069A (zh) * | 2018-12-07 | 2020-06-16 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
CN109857990A (zh) * | 2018-12-18 | 2019-06-07 | 重庆邮电大学 | 一种基于文档结构与深度学习的金融类公告信息抽取方法 |
CN110472120A (zh) * | 2019-07-25 | 2019-11-19 | 厦门快商通科技股份有限公司 | 一种基于社交网络的租房信息收集方法及系统 |
CN110889023A (zh) * | 2019-11-20 | 2020-03-17 | 河海大学常州校区 | 一种elasticsearch的分布式多功能搜索引擎 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN102867012B (zh) | 在完成搜索查询之前提出可替代查询 | |
JP6027618B2 (ja) | トピック・ベースのサーチ・ガイダンスの提供 | |
CN102782678B (zh) | 用于项关联的联合嵌入 | |
RU2720905C2 (ru) | Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска | |
CN110502621A (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
JP4108961B2 (ja) | イメージ検索システムおよびその方法 | |
US11232154B2 (en) | Neural related search query generation | |
CN106649282A (zh) | 基于统计的机器翻译方法、装置及电子设备 | |
CN101520784A (zh) | 信息发布系统和信息发布方法 | |
US20090271390A1 (en) | Product suggestions and bypassing irrelevant query results | |
WO2021173158A1 (en) | Embedding-based retrieval for image search | |
US11663280B2 (en) | Search engine using joint learning for multi-label classification | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
US20110131536A1 (en) | Generating and ranking information units including documents associated with document environments | |
CN114691831A (zh) | 一种基于知识图谱的任务型汽车故障智能问答系统 | |
CN111143574A (zh) | 一种基于少数民族文化知识图谱的查询及可视化系统构建方法 | |
US12001483B2 (en) | Digital data processing systems and methods for digital content retrieval and generation | |
CN112163137A (zh) | 一种基于数据采集和信息抽取的房屋租赁信息搜索方法 | |
CN111223014B (zh) | 一种从大量细分教学内容在线生成细分场景教学课程的方法和系统 | |
Vinutha et al. | Insights into search engine optimization using natural language processing and machine learning | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
WO2022105780A1 (zh) | 推荐方法、装置、电子设备、存储介质 | |
CN112989811B (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
CN114548314A (zh) | 文本匹配方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |