CN104317888B - 一种全文检索测试数据生成方法 - Google Patents
一种全文检索测试数据生成方法 Download PDFInfo
- Publication number
- CN104317888B CN104317888B CN201410570485.8A CN201410570485A CN104317888B CN 104317888 B CN104317888 B CN 104317888B CN 201410570485 A CN201410570485 A CN 201410570485A CN 104317888 B CN104317888 B CN 104317888B
- Authority
- CN
- China
- Prior art keywords
- keyword
- test data
- data entry
- inspection
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种全文检索测试数据生成方法。该方法应用于计算机软件测试技术领域,以解决现有技术中在全文检索功能自动化测试时测试数据准备不全面的缺陷。该方法包括测试数据应覆盖的类型,各类型数据的构造方法,以及不同类型数据的整合比例。本发明适用于全文检索测试工作。
Description
技术领域
本发明涉及计算机软件测试技术领域,尤其涉及一种全文检索测试数据生成方法。
背景技术
全文检索技术是20世纪50年代末产生的一种新的信息检索技术,其是以各类数据为处理对象,提供按照数据资料的内容而不是外在特征来实现的信息检索手段,使人们能够快速方便的查到他们想要的任何信息,全文检索技术以其易用和实用性,成为包括中文在内的信息领域的基本技术,目前,全文检索系统也已成为新一代管理信息系统的代名词,以全文检索为核心技术的搜索引擎也已成为网络时代的主流技术之一。因此,对全文检索的测试工作也逐渐成为当今计算机科学与工程中至关重要的领域之一,而如何选择数据来进行有效的测试是完成软件测试的关键。
现有的测试中,测试数据的准备环节处于测试设计和测试用例完成之后,而在测试实施之前,通常不注重测试数据的准备或者测试数据准备的也不全面,因此测试效率较低。
发明内容
本发明提供一种全文检索测试数据生成方法,可有效克服现有技术中在全文检索功能自动化测试时测试数据准备不全面的缺陷。
本发明提供一种全文检索测试数据生成方法,包括:构造关键词集合;结合所述关键词集合构造单一关键词测试数据条目集合;结合所述关键词集合构造多关键词测试数据条目集合;结合所述关键词集合构造扩检词测试数据条目集合;结合所述关键词集合构造干扰数据集合;将所述单一关键词测试数据条目集合、所述多关键词测试数据条目集合、所述扩检词测试数据条目集合及所述干扰数据集合按照一定比例进行数据的整合。
根据第一方面,在第一种可能的实现方式中,所述构造关键词集合,包括:关键词类型、所述关键词各类型的组合。
根据第一方面,在第二种可能的实现方式中,所述结合所述关键词集合构造单一关键词测试数据条目集合,包括:将所述关键词集合中每一个关键词词组分别放置在测试数据条目的前、中、后三个位置。
根据第一方面,在第三种可能的实现方式中,所述结合所述关键词集合构造多关键词测试数据条目集合,包括:将所述关键词集合中的任意两个、三个及三个以上的关键词词组放置在同一个测试数据条目中。
根据第一方面,在第四种可能的实现方式中,所述结合所述关键词集合构造扩检词测试数据条目集合,包括:将所述关键词集合中每一个关键词词组对应的上、下位扩检数据以及同义词、近义词扩检数据构造扩检数据集合,以验证全文检索的扩检机制;或者,
将所述关键词集合中至少一个关键词词组对应的上、下位扩检数据以及同义词、近义词扩检数据构造扩检数据集合,以验证全文检索的扩检机制。
根据第一方面,在第五种可能的实现方式中,所述结合所述关键词集合构造干扰数据集合,包括:构造不包含任意关键词及关键词对应扩检词的测试数据条目,用来扩充测试数据基数。
根据第一方面,在第六种可能的实现方式中,所述将所述单一关键词测试数据条目集合、所述多关键词测试数据条目集合、所述扩检词测试数据条目集合及所述干扰数据集合按照一定比例进行数据的整合,包括:
所述一定比例为根据查全率进行推算得出。
根据第一方面的第六种可能的实现方式,在第七种可能的实现方式中,所述一定数据比例为根据查全率进行推算得出,包括:所述单一关键词测试数据条目集合和所述多关键词测试数据条目集合之和、所述扩检词测试数据条目集合、所述干扰数据集合的比例为3:2:5,其中所述关键词测试数据条目集合与所述扩检词测试数据条目集合的比例为3:2。
本发明提供的一种全文检索测试数据生成方法,充分考虑测试方法及实际场景,通过扩检词测试数据条目的构造,以及按照比例对根据关键词集合构造的各类型测试数据条目进行整合,最大程度覆盖所有可能出现的应用场景,以此作为测试数据构造的基础,保证了测试数据的全面性。
附图说明
图1为本发明实施例提供的一种全文检索测试数据生成方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在使用构造测试数据进行全文检索系统功能测试时,本发明提供了测试数据的准备方法和步骤,使得测试数据能较全面的测试全文检索系统检索功能,在保证全文检索查准率的前提下,还能为全文检索查全率的测试提供评估依据。
目前存在的检索模型如布尔模型、向量空间模型、概率模型和语言模型,无论是那种模型,都基于一组假设,即:
被检索的对象主要是文档对象;
检索是根据文档内容的表示和用户所需信息的表示进行的;
文档内容和用户所需信息的表示都是明确的。
因此,在全文检索测试数据的准备过程中,也是基于以上的假设进行的。
按照以下方式给出的全文检索测试数据,可以保证全文检索功能测试的全面性。使用该数据生成方法得到的测试数据,测试时在全文检索系统中对关键词进行检索,得出的检索结果数应与构造数据时关键词对应的测试数据条目数一致,其结果应包含扩检词测试数据条目且排除掉无关的干扰数据,从而验证了全文检索功能的正确性。其中关键词即全文检索系统测试过程中的搜索词,该搜索词出现在被检索的对象中。测试数据条目,即被检索对象,是由一句话或一段文字组成的有意义的内容。扩检词测试数据条目是参照全文检索扩检机制,构造与关键词有密切关联的词组,形成测试数据条目,对全文检索的查准率和查全率都有重要影响。干扰数据,即不包含任何关键词及其扩检词的测试数据条目,用来扩充测试数据基数。全文检索测试数据的生成方法,其具体步骤如图1所示:
S1、构造关键词集合。
S2、结合关键词集合构造单一关键词测试数据条目集合。
S3、结合关键词集合构造多关键词测试数据条目集合。
S4、结合关键词集合构造扩检词测试数据条目集合。
S5、结合关键词集合构造干扰数据集合。
S6、将单一关键词测试数据条目集合、所述多关键词测试数据条目集合、所述扩检词测试数据条目集合及所述干扰数据集合按照一定比例进行数据的整合。
其中,步骤S1中,构造关键词集合时,需要考虑关键词的类型,类型包括中文、英文、其他语种词组(结合全文检索系统实现选择进行添加)、数字、符号(全角、半角),其中中文类型关键词需要包括二字词和多字词,英文类型关键词须包括单词、两词词组和多词词组。对每一种类型单独构造关键词词组后,通过穷举法罗列多种类型组合情况,按照罗列的类型组合构造多类型结合的关键词词组,然后结合判定表法将无意义的词组内容排除,形成最终关键词集合。其中需要注意的是,关键词词组结合系统应用行业需求、互联网常用搜索关键词,对于互联网常用搜索词分类别进行添加,需要覆盖所有类型的常用词,如地区、行业、IT、网站常用菜单、工作类、年度热门搜索和人名,此举为了结合实际场景,确保测试数据的真实性和实用性。
步骤S2中,构造单一关键词测试数据条目集合时,结合边界值测试方法的思想理论,将关键词集合中每一个关键词词组分别放置在测试数据条目前、中、后三个位置,即有意义句子的前、中、后三个位置。
步骤S3中,构造多关键词测试数据条目集合时,需要将任意两个、三个、多个关键词词组放在同一测试数据条目中。构造此类数据是为了测试全文检索的组配功能,即通过逻辑关系符号将有关检索词组配成“逻辑与”(AND)、“逻辑或”(OR)提问式来表达检索内容。
步骤S4中,需要构造扩检词测试数据条目集合来验证全文检索的扩建机制,包括上、下位扩检数据以及同义词、近义词扩检数据。具体地,构造扩检词测试数据条目集合,寻找关键词词组的属于关系词和同义词,添加在测试数据条目中,形成扩检词测试数据条目。优选地,将所述关键词集合中每一个关键词词组对应的上、下位扩检数据以及同义词、近义词扩检数据构造扩检数据集合,以验证全文检索的扩检机制;或者,将所述关键词集合中至少一个关键词词组对应的上、下位扩检数据以及同义词、近义词扩检数据构造扩检数据集合,以验证全文检索的扩检机制。该数据是为了测试全文检索中上、下位的扩检和同义词、近义词扩检功能。上、下位扩检是指全文检索会对关键词中存在属于关系的词进行检索,而同义词、近义词扩检则是指对与关键词意义相近的词组也会进行检索。抽取每一个或者至少一个关键词,对其上、下位扩检词及同义词进行罗列,构造测试数据条目,形成扩检词测试数据条目集合。
步骤S5中,构造干扰数据集合,即构造不包含任意关键词及关键词对应扩检词的测试数据条目,用来扩充测试数据基数。
步骤S6中,步骤S2至S5所构造的各类数据集合按照比例进行合并,关键词测试数据条目(用S2+S3表示)与扩检词测试数据条目(用S4表示)的比例分配可根据查全率概念,即指被检出的相关文献占总文献内所有相关文献总数的百分比进行比例分配。一般情况下,查全率约为60%~70%,即关键词测试数据条目占关键词测试数据条目与扩检词测试数据条目总数的60%~70%。取60%为占比,即(S2+S3)/(S2+S3+S4)=60%,可得(S2+S3):S4=3:2.干扰数据(S5)作为测试数据基数可根据实际待测系统进行调整,一般可占总数据的50%,因此,(S2+S3):S4:S5=3:2:5。
本实施例,充分考虑测试方法及实际场景,通过扩检词测试数据条目
的构造,以及按照比例对根据关键词集合构造的各类型测试数据条目进行整合,最大程度覆盖所有可能出现的应用场景,以此作为测试数据构造的基础,保证了测试数据的全面性,给出测试全文检索功能的全面测试数据,保证了全文检索测试的全面性。
下面给出具体示例进行说明。
S1中,使用穷举法罗列类型,包括中文、英文、其他语种词组(结合全文检索系统实现选择进行添加)、数字、符号(全角、半角),以及所有类型两两组合和三三组合,中文类型需要包括二字词和多字词,英文类型须包括单词、两词词组和多词词组。然后构造关键词词组,结合判定表法删除无意义词组,如符号与其他类型的组合为无意义词组。关键词构造如以下示例,见表1:
表1 关键词构造
S2中,将以上构造的关键词词组分布在测试数据条目的前、中、后各个位置。构造单一关键词测试数据条目集合。示例如表2:
表2构造单一关键词测试数据条目集合
S3中,将任意两个、三个、多个关键词词组放在同一测试数据条目中,构造多关键词测试数据条目集合。例如:来到北京可以看到千千静听公司的总部。
S5中,构造扩检词测试数据条目集合上、下位扩检,例如:检索“液体火箭发动机”检索式中,氢氧发动机和脐发动机都属于液体火箭发动机,是液体火箭发动机的下位主题词,火箭发动机是液体火箭发动机的上位主题词。同义词、近义词扩检,如“乙醇”俗名“酒精”,“维生素C”俗称“维他命C”,或“抗坏血酸”,“聚对苯二甲酸乙二醋纤维”俗称“涤纶”,“聚丙烯晴纤维”俗称“晴纶”,“山植”俗称“山里红”,“番茄”俗称“西红柿”,“马铃薯”俗称“土豆”,“敌克松”又称“地可松”等。挑选部分关键词并找出其上、下位扩检词和同义词,添加在测试数据条目中,构造扩检词测试数据条目集合。
S6中,构造干扰数据,即不包含任意关键词、关键词的上、下位扩检词以及同义词的测试数据条目。
S7中,将S2至S5构造的数据集合,按照一定的比例进行整合,其中单一关键词测试数据条目集合和多关键词测试数据条目集合之和:扩检词测试数据条目集合:干扰数据集合=3:2:5.其中干扰数据可根据数据量进行调整,不必拘泥于总数据量的一半。但关键词测试数据条目集合与扩检词测试数据条目集合的比例需保证为3:2。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (2)
1.一种全文检索测试数据生成方法,其特征在于,包括:
构造关键词集合;
结合所述关键词集合构造单一关键词测试数据条目集合;具体地,将所述关键词集合中每一个关键词词组分别放置在测试数据条目的前、中、后三个位置,形成所述单一关键词测试数据条目集合;
结合所述关键词集合构造多关键词测试数据条目集合;具体地,将所述关键词集合中的任意两个、三个及三个以上的关键词词组放置在同一个测试数据条目中,形成所述多关键词测试数据条目集合;
结合所述关键词集合构造扩检词测试数据条目集合;具体地,将所述关键词集合中每一个关键词词组对应的上、下位扩检数据以及同义词、近义词扩检数据构造扩检数据集合,形成所述扩检词测试数据条目集合;或者,将所述关键词集合中至少一个关键词词组对应的上、下位扩检数据以及同义词、近义词扩检数据构造扩检数据集合,形成所述扩检词测试数据条目集合;
结合所述关键词集合构造干扰数据集合;具体地,构造不包含任意关键词及关键词对应扩检词的测试数据条目,形成所述干扰数据集合;
其中,所述单一关键词测试数据条目集合和所述多关键词测试数据条目集合之和、所述扩检词测试数据条目集合、所述干扰数据集合的比例为3:2:5。
2.根据权利要求1所述的方法,其特征在于,所述构造关键词集合,包括关键词类型、所述关键词各类型的组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410570485.8A CN104317888B (zh) | 2014-10-23 | 2014-10-23 | 一种全文检索测试数据生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410570485.8A CN104317888B (zh) | 2014-10-23 | 2014-10-23 | 一种全文检索测试数据生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104317888A CN104317888A (zh) | 2015-01-28 |
CN104317888B true CN104317888B (zh) | 2018-04-27 |
Family
ID=52373120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410570485.8A Active CN104317888B (zh) | 2014-10-23 | 2014-10-23 | 一种全文检索测试数据生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104317888B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682023A (zh) * | 2015-11-10 | 2017-05-17 | 杭州华为数字技术有限公司 | 生成数据集的方法和装置 |
CN106547916A (zh) * | 2016-11-29 | 2017-03-29 | 中国农业银行股份有限公司 | 一种用户画像标签查询方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101714166A (zh) * | 2009-10-30 | 2010-05-26 | 清华大学 | 一种大规模多关键词精确匹配算法的性能测试方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4085156B2 (ja) * | 2002-03-18 | 2008-05-14 | 独立行政法人情報通信研究機構 | テキスト生成方法及びテキスト生成装置 |
-
2014
- 2014-10-23 CN CN201410570485.8A patent/CN104317888B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101714166A (zh) * | 2009-10-30 | 2010-05-26 | 清华大学 | 一种大规模多关键词精确匹配算法的性能测试方法及系统 |
Non-Patent Citations (1)
Title |
---|
Xml 数据库的全文检索性能测试方法及其实施过程研究;张惠;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140615(第6期);第4-5、14-23、29、42、44-46页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104317888A (zh) | 2015-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vilar et al. | Prompting palm for translation: Assessing strategies and performance | |
US20130061139A1 (en) | Server-based spell checking on a user device | |
Chen et al. | A joint model to identify and align bilingual named entities | |
Piskorski et al. | The first cross-lingual challenge on recognition, normalization and matching of named entities in Slavic languages | |
US20130060560A1 (en) | Server-based spell checking | |
CN106055623A (zh) | 一种跨语言推荐方法和系统 | |
US20130124958A1 (en) | Enrichment of data using a semantic auto-discovery of reference and visual data | |
KR20210048570A (ko) | 특허 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템 | |
US20130232147A1 (en) | Generating a taxonomy from unstructured information | |
CN107357777A (zh) | 提取标签信息的方法和装置 | |
JP5185402B2 (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
CN106156196A (zh) | 提取文本特征的装置和方法 | |
CN104317888B (zh) | 一种全文检索测试数据生成方法 | |
Doan et al. | Multi graph neural network for extractive long document summarization | |
US9218336B2 (en) | Efficient implementation of morphology for agglutinative languages | |
Zeng et al. | Linking entities in short texts based on a Chinese semantic knowledge base | |
JP6181033B2 (ja) | 文書検索装置、文書検索方法、及び、文書検索プログラム | |
JPWO2015016133A1 (ja) | 情報管理装置及び情報管理方法 | |
Liu et al. | Downstream structure and evolution of a simulated CME-driven sheath in the solar corona | |
CN103294662B (zh) | 一致性判断装置及一致性判断方法 | |
JP6114090B2 (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
KR101421819B1 (ko) | 온라인 환경에서의 벌룬을 이용한 키워드 검색 결과 제공 방법 | |
JP7064871B2 (ja) | テキストマイニング装置およびテキストマイニング方法 | |
Vo et al. | VietSentiLex: A sentiment dictionary that considers the polarity of ambiguous sentiment words | |
JP5123350B2 (ja) | テストケース作成システム、方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 710000 Yanta West Road, Xi'an, Shaanxi Province, No. 6 Patentee after: Telecommunications Science and technology Tenth Research Institute Limited Address before: 710000 Yanta West Road, Xi'an, Shaanxi Province, No. 6 Patentee before: TELECOMMUNICATION SCIENCE AND TECHNOLOGY NO. 10 RESEARCH INSTITUTE |