FR3103937A1

FR3103937A1 - IDENTIFICATION AND UNDERSTANDING OF COMPUTER-CONTROLLED QUESTIONS IN A COMMERCIAL TENDER FILE FOR AUTOMATED TENDER PROCESSING

Info

Publication number: FR3103937A1
Application number: FR1913493A
Authority: FR
Inventors: Jonathan Darbey
Original assignee: Bidify Ltd
Current assignee: Bidify Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2021-06-04

Abstract

Dans un procédé d’identification et de compréhension de questions pilotées par ordinateur dans un dossier d’appel d’offres commercial (CTD), des différents CTD de différentes personnes sont téléchargés dans le stockage fixe d’un ordinateur. Ensuite, les différents CTD sont chargés en mémoire et regroupés dans des différents regroupements selon au moins un critère de regroupements. Pour chacun des CTD, un regroupement correspondant parmi les regroupements est identifiée et un modèle de segmentation est sélectionné choisi parmi les regroupements identifiés. Par la suite, une segmentation est exécutée sur le CTD en utilisant le modèle de segmentation sélectionné pour produire un ensemble des portions segmentées du CTD. Enfin, pour chacune des portions segmentées, un ensemble de règles d’extraction mappées à ladite portion est récupéré, au moins une question extraite de ladite portion segmentée utilisant l’ensemble de règles d’extraction et chaque question extraite stockée dans une base de données à participation productives de questions pour les CTD. Figures pour l’abrégé : Figure 1In a method of identifying and understanding computer-driven issues in a commercial tender dossier (CTD), different CTDs from different people are uploaded to fixed storage on a computer. Then, the different CTDs are loaded into memory and grouped together in different groupings according to at least one grouping criterion. For each of the CTDs, a corresponding grouping among the groupings is identified and a segmentation model is selected chosen from among the identified groupings. Subsequently, segmentation is performed on the CTD using the selected segmentation model to produce a set of the segmented portions of the CTD. Finally, for each of the segmented portions, a set of extraction rules mapped to said portion is retrieved, at least one question extracted from said segmented portion using the set of extraction rules and each extracted question stored in a database to productive participation of questions for the CPCs. Figures for the abstract: Figure 1

Description

IDENTIFICATION AND UNDERSTANDING OF COMPUTER-DRIVEN QUESTIONS IN A COMMERCIAL TENDER DOCUMENT FOR AUTOMATED TENDER PROCESSING

Domaine technique de l’inventionTechnical field of the invention

La présente invention concerne le domaine du traitement des offres commerciales et plus particulièrement le traitement automatisé des dossiers d’appel d’offres commercial.The present invention relates to the field of the processing of commercial offers and more particularly the automated processing of commercial tender files.

Arrière-plan techniqueTechnical background

Les dossiers d’appel d’offres commercial fait référence à l’ensemble des documents commerciaux de base utilisés dans le commerce pour l’acquisition de biens ou de services. Les dossiers d’appel d’offres commerciaux vont de l’appel d’offres (RFT pour «request for tender» en anglais) ou de l’invitation à faire une offre (ITB pour «invitation to bid» anglais) lorsque la nature des biens ou des services à acquérir est bien comprise, à la demande de proposition (RFP pour «request for proposal» en anglais) lorsque la nature des biens ou des services à acquérir est moins claire. Dans tous les cas, la structure essentielle des dossiers d’appel d’offres commerciaux comprend une série de questions auxquelles le répondant éventuel doit répondre. Dans certains cas, les questions sont organisées d’une manière structurellement raisonnable. Mais, dans d’autres cas, les questions manquent d’organisation adéquate.Commercial bidding documents refer to the set of basic business documents used in commerce for the acquisition of goods or services. Commercial tender documents range from a request for tender (RFT) to an invitation to bid (ITB) when the nature of the goods or services to be acquired is well understood, at the request for proposal (RFP for "request for proposal" in English) when the nature of the goods or services to be acquired is less clear. In all cases, the essential structure of commercial bidding documents includes a series of questions that the prospective respondent must answer. In some cases, the questions are organized in a structurally reasonable way. But, in other cases, the questions lack adequate organization.

Le processus de réponse à un appel d’offres commercial consiste à identifier chaque question dans un dossier d’appel d’offres commercial et à formuler une réponse écrite. La réponse écrite, donc, peut être comparée à d’autres réponses écrites afin que le demandeur puisse attribuer à l’un des soumissionnaires un contrat d’approvisionnement subséquent, ou afin que le demandeur puisse offrir à un ou plusieurs soumissionnaires une demande d’offre subséquente telle qu’une demande de renseignements (RFI pour «request for information» en anglais) ou une demande de prix (RFQ pour «request for quotation» en anglais). Dans un cas comme dans l’autre, l’exercice de réponse à un appel d’offres commercial tend à être un exercice manuel qui se répète pour chaque appel d’offres commercial.The process for responding to a commercial tender involves identifying each question in a commercial tender document and formulating a written response. The written response, therefore, may be compared with other written responses so that the requester can award one of the bidders a subsequent supply contract, or so that the requester can offer one or more bidders a request for subsequent offer such as a request for information (RFI for "request for information" in English) or a price request (RFQ for "request for quotation" in English). In either case, the exercise of responding to a commercial RFP tends to be a manual exercise that is repeated for each commercial RFP.

Reconnaissant la nature répétitive de la réponse à un appel d’offres commerciale, les fournisseurs de logiciels ont proposé dans le passé des outils automatisés et semi-automatisés facilitant la génération d’une réponse à un appel d’offres commercial. Les solutions typiques se concentrent sur le processus de réponse à la RFP et s’appuient sur un dépôt centralisé d’information d’entreprise à partir duquel des réponses normalisées aux questions de la RFP peuvent être sélectionnées et insérées dans un modèle de réponse à une RFP, soit manuellement, automatiquement ou, dans la plupart des cas, une combinaison des deux. Certaines solutions permettent de baliser les réponses avec des méta-données pour faciliter l’organisation du contenu de réponse pré-construit, facilement accessible par l’utilisateur final. En fait, certaines solutions vont jusqu’à classifier la fraîcheur ou l’actualité du contenu de la réponse afin d’assurer l’utilisation du contenu de la réponse la plus récente dans une réponse à une RFP.Recognizing the repetitive nature of responding to a commercial RFP, software vendors in the past have offered automated and semi-automated tools to facilitate the generation of a response to a commercial RFP. Typical solutions focus on the RFP response process and rely on a centralized corporate information repository from which standardized responses to RFP questions can be selected and inserted into a response template. RFP, either manually, automatically or, in most cases, a combination of both. Some solutions allow responses to be tagged with metadata to help organize pre-built response content, easily accessible by the end user. In fact, some solutions go so far as to classify the freshness or timeliness of response content to ensure that the most recent response content is used in an RFP response.

Toutefois, dans tous les cas, les solutions de gestion des réponses aux RFP se concentrent uniquement sur un répertoire des réponses aux questions utilisées dans le passé sans égard au contexte des questions posées et plus précisément, au contexte de la RFP elle-même. De toute évidence, la meilleure réponse à une question dépend du contexte de la RFP. Cependant, les solutions modernes automatisées de RFP ne tiennent pas compte du contexte de la RFP. De plus, bien que les ensembles de questions d’une RFP puissent sembler différents, ce qui donne lieu à une solution automatisée fournissant un mappage des réponses à la question spécifique présentée, de nombreuses questions peuvent être sémantiquement identiques malgré l’utilisation de mots différents. Dans ce cas, un large éventail de réponses autrement viables seront exclues de l’utilisation dans la sélection d’une réponse appropriée. Enfin, bien que les outils modernes de gestion des réponses aux RFP sélectionnent les réponses présentées dans les réponses passées aux RFP, aucune considération n’est fournie quant à la probabilité de succès individuel de chaque réponse sélectionnée.However, in all cases, RFP response management solutions focus only on a repository of responses to questions used in the past without regard to the context of the questions being asked and more specifically, the context of the RFP itself. Obviously, the best answer to a question depends on the context of the RFP. However, modern automated RFP solutions do not take into account the RFP context. Additionally, while the question sets in an RFP may look different, resulting in an automated solution that provides a mapping of responses to the specific question being presented, many questions may be semantically identical despite using different words. . In this case, a wide range of otherwise viable responses will be excluded from use in selecting an appropriate response. Finally, although modern RFP response management tools select responses presented in past RFP responses, no consideration is provided as to the individual probability of success of each selected response.

Les réalisations de la présente invention comblent les lacunes de l’état de l’art en ce qui concerne la production automatisée d’un document de réponse pour un dossier d’appel d’offres commercial (CTD pour «commercial tender document» en anglais) et fournissent un procédé, un système et un produit de programme informatique nouveaux et non évidents pour l’identification et la compréhension des questions par ordinateur dans un CTD. Dans un procédé d’identification et de compréhension de questions pilotées par ordinateur dans un CTD, différents CTD de différentes personnes sont téléchargés dans un stockage fixe d’un ordinateur à partir d’un réseau de communication informatique à partir de différents clients informatiques. Ensuite, les CTD différents parmi les CTD sont chargés dans la mémoire de l’ordinateur. Les différents CTD peuvent ensuite être regroupés en des multiples regroupements différents en fonction d’au moins un critère de regroupement.The embodiments of the present invention fill the gaps in the state of the art with regard to the automated production of a response document for a commercial tender document (CTD for "commercial tender document" in English ) and provide a novel and non-obvious method, system, and computer program product for identifying and understanding computer-based issues in a CTD. In a method of identifying and understanding computer-driven issues in a CTD, different CTDs of different people are downloaded to fixed storage of a computer from a computer communication network from different computer clients. Then, the different CTDs among the CTDs are loaded into the memory of the computer. The different CTDs can then be grouped into multiple different groupings according to at least one grouping criterion.

Pour chacun des CTD, un regroupement correspondant parmi les regroupements est identifié et un modèle de segmentation est sélectionné pour le regroupement identifié parmi les regroupements. Par exemple, le modèle de segmentation peut être un modèle d’un prototype de CTD pour la classification industrielle indiquant des différentes sections topiques du prototype de CTD. Par la suite, une segmentation est effectuée sur le CTD parmi les CTD en utilisant le modèle de segmentation sélectionné pour produire un ensemble de portions segmentées dudit CTD parmi les CTD. Enfin, pour chaque portion segmentée, un ensemble de règles d’extraction mappées à la portion segmentée est récupéré, au moins une question est extraite de la portion segmentée en utilisant l’ensemble de règles d’extraction et chaque question extraite est stockée dans une base de données de production participative de questions pour les CTD.For each of the CTDs, a corresponding one of the clusters is identified and a segmentation model is selected for the identified one of the clusters. For example, the segmentation model can be a model of a prototype CTD for industrial classification indicating different topical sections of the prototype CTD. Subsequently, segmentation is performed on the CTD of CTDs using the selected segmentation template to produce a set of segmented portions of said CTD of CTDs. Finally, for each segmented portion, a set of extraction rules mapped to the segmented portion is retrieved, at least one question is extracted from the segmented portion using the extraction rule set, and each extracted question is stored in a crowd-sourced database of questions for CTDs.

Dans un aspect du mode de réalisation de l’invention, le critère de regroupement est une classification industrielle pour une source différente de chacun des CTD. De plus, dans un autre aspect de réalisation de l’invention, la classification industrielle est spécifiée dans les méta-données lisibles par machine incluses avec chacun des CTD. Dans un autre aspect de réalisation de l’invention, la classification industrielle est déterminée en analysant des mots-clés de chacun des CTD et pour chacun des CTD, les mots-clés analysés sont mis en correspondance aux mots connus pour correspondre à une classification industrielle spécifique. Dans encore un autre aspect du mode de réalisation de l’invention, la classification industrielle est déterminée en analysant des mots-clés de chacun des CTD et pour chacun des CTD, en soumettant les mots-clés correspondants parmi les mots-clés analysés à un réseau neuronal formé pour corréler les termes soumis avec une classification industrielle particulière.In one aspect of the embodiment of the invention, the grouping criterion is an industry classification for a different source of each of the CTDs. Additionally, in another embodiment of the invention, the industry classification is specified in the machine-readable metadata included with each of the CTDs. In another embodiment of the invention, the industry classification is determined by analyzing keywords from each of the CTDs and for each of the CTDs, the analyzed keywords are matched to words known to match an industry classification. specific. In yet another aspect of the embodiment of the invention, the industrial classification is determined by analyzing keywords from each of the CTDs and for each of the CTDs, by subjecting the corresponding keywords among the analyzed keywords to a neural network trained to correlate submitted terms with a particular industry classification.

Enfin, un autre aspect du mode de réalisation de l’invention inclut également le traitement en langage naturel de chaque question extraite dans la base de données de production participative. Les questions sont ensuite regroupées dans la base de données en fonction de similarité basée sur le traitement de langage naturel. Ensuite, une forme la plus simple des questions regroupées est sélectionnée comme question représentative parmi les questions et les questions regroupées sont associées à la forme la plus simple des questions regroupées. Enfin, la forme la plus simple des questions regroupées est stockée dans la base de données en tant que question représentative parmi les questions regroupées.Finally, another aspect of the embodiment of the invention also includes natural language processing of each question extracted from the crowdsourcing database. The questions are then grouped in the database based on similarity based on natural language processing. Then, a simplest form of the grouped questions is selected as a representative question among the questions, and the grouped questions are matched with the simplest form of the grouped questions. Finally, the simplest form of the grouped questions is stored in the database as a representative question among the grouped questions.

Dans un autre mode de réalisation de l’invention, un système informatique de traitement des données est configuré pour l’identification et la compréhension de questions par ordinateur dans un CTD. Le système comprend un système informatique hôte qui comprend un ou plusieurs ordinateurs, chacun avec mémoire et au moins un processeur. Le système comprend également une mémoire de données couplée au système informatique qui stocke dans celle-ci une pluralité de différents CTD reçus d’un réseau de communication informatique de différents clients informatiques de différentes personnes. Enfin, le système comprend un module d’identification de questions. Le module comprend des instructions de programme informatique s’exécutant dans la mémoire du système informatique hôte. Les instructions de programme, à leur tour, permettent d’effectuer un processus d’identification et de compréhension de questions par ordinateur dans un CTD.In another embodiment of the invention, a data processing computer system is configured for computer-based identification and understanding of questions in a CTD. The system includes a host computer system that includes one or more computers, each with memory and at least one processor. The system also includes a data memory coupled to the computer system which stores therein a plurality of different CTDs received from a computer communication network from different computer clients of different people. Finally, the system includes a question identification module. The module includes computer program instructions executing in the memory of the host computer system. Program instructions, in turn, make it possible to carry out a process of identifying and understanding questions by computer in a CTD.

Plus précisément, lors de l’exécution dans la mémoire du système informatique hôte, les instructions chargent dans la mémoire une pluralité de CTD, et regroupent les CTD en regroupement différents multiples selon au moins un critère de regroupement. Pour chacun des CTD, on peut identifier un regroupement correspondant parmi les regroupements et sélectionner un modèle de segmentation pour le regroupement identifié parmi les regroupements. Ensuite, la segmentation peut être effectuée sur chaque CTD en utilisant le modèle de segmentation sélectionné pour produire un ensemble de portions segmentées du CTD parmi les CTD. Enfin, pour chacune des portions segmentées, un ensemble de règles d’extraction mappé à la partie segmentée est reçu et au moins une question extraite de la portion segmentée en utilisant l’ensemble de règles d’extraction. Ensuite, chaque question extraite est stockée dans une base de données de production participative de questions pour les CTD.Specifically, when executing in memory of the host computer system, the instructions load a plurality of CTDs into memory, and group the CTDs into multiple different groupings according to at least one grouping criterion. For each of the CTDs, a corresponding cluster can be identified from the clusters and a segmentation model can be selected for the cluster identified from the clusters. Then, segmentation can be performed on each CTD using the selected segmentation model to produce a set of segmented portions of the CTD among the CTDs. Finally, for each of the segmented portions, an extraction rule set mapped to the segmented portion is received and at least one question extracted from the segmented portion using the extraction rule set. Then, each extracted question is stored in a crowdsourced database of questions for CTDs.

À cet égard, étant donné que la base de données de production participative comprend des questions pour les CTD provenant de différentes entités, des tendances peuvent être identifiées parmi les questions. Plus précisément, comme les questions similaires sont groupées sous un genre commun, les questions qui présentent le plus d’intérêt dans les différents CTD traités à un moment donné peuvent être identifiées comme une tendance à l’interrogation. Pour chaque question traitée extraite d’un CTD, la question peut être associée à un groupe particulier et un certain nombre de questions pour chaque groupe peut être calculé. Par conséquent, une distribution de questions reçues dans l’ensemble peut être observée de manière à révéler, par calcul, des questions dont la prévalence est la plus élevée pour une période de temps donnée.In this regard, since the crowdsourcing database includes questions for CTDs from different entities, patterns can be identified among the questions. Specifically, since similar questions are grouped under a common genre, the questions that are of most interest in the different CTDs being processed at any given time can be identified as a question pattern. For each processed question extracted from a CTD, the question can be associated with a particular group and a number of questions for each group can be calculated. Therefore, a distribution of questions received in the set can be observed in such a way as to reveal, by calculation, questions with the highest prevalence for a given period of time.

D’autre aspects de l’invention seront exposés en partie dans la description qui suit et en partie seront évidents dans la description, ou pourront être appris par la pratique de l’invention. Les aspects de l’invention seront réalisés et atteints au moyen des éléments et combinaisons particulièrement indiqués dans les différentes modes de réalisation décrits. Il est entendu que la description générale qui précède et la description détaillée qui suit sont toutes deux données à titre d’exemple et explicatives et ne sont pas restrictives à l’égard de l’invention.Other aspects of the invention will be set forth in part in the description which follows and in part will be obvious from the description, or may be learned by practice of the invention. The aspects of the invention will be realized and achieved by means of the elements and combinations particularly indicated in the various embodiments described. It is understood that the foregoing general description and the following detailed description are both exemplary and explanatory and are not restrictive of the invention.

Brève description des figuresBrief description of figures

Les dessins accompagnant, qui sont incorporés dans le présent fascicule et en font partie intégrante, illustrent des modes de réalisation de l’invention et servent, avec la description, à expliquer les principes de l’invention. Les modes de réalisation illustrés ici sont actuellement préférés, étant entendu, toutefois, que l’invention ne se limite pas aux arrangements et aux instruments précis montrés, dans lesquels :The accompanying drawings, which are incorporated into and form part of this specification, illustrate embodiments of the invention and serve, together with the description, to explain the principles of the invention. The embodiments illustrated herein are presently preferred, it being understood, however, that the invention is not limited to the specific arrangements and instruments shown, in which:

La figure 1 est une illustration picturale d’un processus d’identification et de compréhension de questions pilotées par ordinateur dans un CTD; Figure 1 is a pictorial illustration of a computer-driven question identification and understanding process in a CTD;

La figure 2 est une illustration schématique d’un système informatique de traitement des données adapté à l’identification et à la compréhension de questions pilotées par ordinateur dans un CTD, Figure 2 is a schematic illustration of a data processing computer system suitable for identifying and understanding computer-driven questions in a CTD,

La figure 3 est un organigramme illustrant un processus d’identification et de compréhension de questions pilotées par ordinateur dans un CTD. Figure 3 is a flowchart illustrating a process for identifying and understanding computer-driven issues in a CTD.

Description détaillée de l’inventionDetailed description of the invention

Les modes de réalisation de l’invention permettent d’identifier et de comprendre les questions pilotées par ordinateur dans un document tel qu’un CTD. Conformément à la réalisation de l’invention, des différents CTD sont reçus de différentes personnes et sont ensuite regroupés en différents regroupements selon des critères de regroupement, par exemple une classification industrielle d’une source d’un CTD correspondant parmi les CTD. Par la suite, pour chaque CTD, un regroupement correspondant est identifié, et un modèle de segmentation est sélectionné pour le regroupement identifié parmi les regroupements. En utilisant le modèle de segmentation la segmentation est effectuée sur le CTD de manière à produire un ensemble de portions segmentées du CTD. Enfin, pour chaque portion segmentée, un ensemble de règles d’extraction mappé est récupéré, au moins une question extraite de la portion segmentée à l’aide de l’ensemble de règles d’extraction et chaque question extraite est stockée dans une base de données de production participative de questions pour les CTD. Par conséquent, des réponses optimales peuvent être formulées pour chacune des questions et automatiquement incluses en réponse à un CTD reçu ultérieurement en faisant correspondre les questions du CTD subséquent à celles de la base de données de production participative et en fournissant les réponses optimales à ces questions.Embodiments of the invention identify and understand computer-driven questions in a document such as a CTD. In accordance with the embodiment of the invention, different CTDs are received from different people and are then grouped into different groupings according to grouping criteria, for example an industrial classification of a source of a corresponding CTD among the CTDs. Subsequently, for each CTD, a corresponding cluster is identified, and a segmentation model is selected for the identified cluster among the clusters. Using the segmentation model the segmentation is performed on the CTD so as to produce a set of segmented portions of the CTD. Finally, for each segmented portion, a mapped extraction rule set is retrieved, at least one question extracted from the segmented portion using the extraction rule set, and each extracted question is stored in a database. Crowd-sourced data questions for CTDs. Therefore, optimal answers can be formulated for each of the questions and automatically included in response to a subsequently received CTD by matching the questions in the subsequent CTD to those in the crowdsourcing database and providing the optimal answers to those questions. .

Dans une autre illustration, la figure 1 illustre schématiquement un processus d’identification et de compréhension de questions pilotées par ordinateur dans un CTD. Comme le montre la figure 1, une multiplicité de CTD 100A différents, par exemple des RFQ, des RFP, des ITB, des RFI et autres similaires, sont reçus de différentes personnes ou organisations à partir d’un réseau de communication informatique tel que l’Internet mondial. Les CTD 100A sont regroupés dans des différents regroupements selon des critères de regroupement, tels qu’une classification industrielle associée, une région géographique ou un profil démographique, pour ne citer que quelques exemples. Une fois regroupés, chaque CTD 100B regroupé est ensuite soumis à une segmentation basée sur l’application d’un modèle de segmentation 120 dans un pool 130 de modules de segmentation 120, chacun correspondant à une classification différente définie par les critères de regroupement 110.In another illustration, Figure 1 schematically illustrates a process of identifying and understanding computer-driven questions in a CTD. As shown in Figure 1, a multiplicity of different CTDs 100A, for example RFQs, RFPs, ITBs, RFIs and the like, are received from different people or organizations from a computer communication network such as the global internet. CTD 100As are grouped into different groupings based on grouping criteria, such as associated industry classification, geographic region, or demographic profile, to name a few examples. Once grouped, each grouped CTD 100B is then subjected to a segmentation based on the application of a segmentation model 120 in a pool 130 of segmentation modules 120, each corresponding to a different classification defined by the grouping criteria 110.

Le modèle de segmentation 120 peut être un modèle associé à la classification spécifique, fournissant une architecture attendue pour le CTD 100B regroupé - à savoir le nombre et le type de différentes sections ou segments 140A, 140N devant être présents dans le CTD 100B regroupé selon la classification correspondante. Par exemple, dans la mesure où le CTD 100B regroupé est classé comme ayant trait à la construction de bâtiment, les segments 140A, 140N seraient spécifiés dans le modèle de segmentation 120 sélectionné en fonction des exigences matérielles, des phases de construction, de l’autorisation d’exercer et des sous-traitants, alors que dans la mesure où le CTD 100B regroupé est classé comme ayant trait aux services de santé, les segments 140A et 140N seraient spécifiés dans le modèle 120 sélectionné selon les biographies des prestataires de soins, les privilèges des hôpitaux, les compétences en gestion des maladies, etc.The segmentation model 120 may be a model associated with the specific classification, providing an expected architecture for the grouped CTD 100B - namely the number and type of different sections or segments 140A, 140N to be present in the grouped CTD 100B according to the corresponding classification. For example, since the grouped CTD 100B is classified as relating to building construction, segments 140A, 140N would be specified in the segmentation model 120 selected based on material requirements, construction phases, licensure and contractors, whereas to the extent that the aggregated CTD 100B is classified as relating to healthcare services, segments 140A and 140N would be specified in the selected template 120 according to the healthcare providers' biographies, hospital privileges, disease management skills, etc.

Une fois que le CTD 100B regroupé a été segmenté en différents segments 140A, 140N, un ensemble d’une ou plusieurs règles d’extraction 160 est sélectionné pour chacun des segments 140A, 140N. Chacune des règles d’extraction 160 fournit une directive pour localiser une question 150 dans un segment correspondant parmi des segments 140A, 140N. Des exemples comprennent des étapes comprenant à identifier un texte précédant une ponctuation spécifique comme un point d’interrogation ou des deux points, ou un texte suivant des verbes spécifiques indiquant une question, comme "état", "fournir", "liste", "indiquer", "expliquer", etc. Comme chaque question 150 est extraite d’un segment correspondant parmi les segments 140A, 140N, la question 150 est stockée dans une base de données de questions 170 pour traitement ultérieur. En particulier, le traitement ultérieur peut inclure la formulation de réponses pour correspondre à chacune des questions stockées 150, dont les réponses peuvent être réutilisées en réponse à un nombre quelconque de CTD 100A reçus ultérieurement.Once the aggregated CTD 100B has been segmented into different segments 140A, 140N, a set of one or more extraction rules 160 is selected for each of the segments 140A, 140N. Each of the extraction rules 160 provides a directive to locate a question 150 in a corresponding segment among segments 140A, 140N. Examples include steps including identifying text preceding specific punctuation such as a question mark or colon, or text following specific verbs indicating a question, such as "state", "provide", "list", " indicate", "explain", etc. As each question 150 is extracted from a corresponding one of segments 140A, 140N, question 150 is stored in a question database 170 for further processing. In particular, further processing may include formulating responses to match each of the stored questions 150, the responses of which may be reused in response to any number of CTDs 100A subsequently received.

Il est à noter que le processus d’extraction de questions peut être un processus automatisé qui dépend exclusivement des règles d’extraction 160. De plus, le processus d’extraction des questions peut être un processus hybride homme-machine dans lequel des différents segments parmi les segments 140A, 140N sont annotés manuellement par un utilisateur final au moyen d’une interface utilisateur au CTD 100B. L’annotation appliquée à chaque question 150 est ensuite associée à la structure de la question de sorte que des questions 150 de localisation similaire sont attribuées la même annotation. En effet, les règles d’extraction parmi les règles d’extraction 160 peuvent être déduites sur la base d’une corrélation entre les termes de chaque question annotée parmi les questions et les annotations elles-mêmes. En outre, une fois qu’une règle d’extraction 160 a été déduite d’une annotation humaine de la question 150, la règle d’extraction 160 peut être présentée dans l’interface d’utilisateur pour confirmation par l’utilisateur final.It should be noted that the question extraction process can be an automated process that depends exclusively on the extraction rules 160. In addition, the question extraction process can be a human-machine hybrid process in which different segments of segments 140A, 140N are manually annotated by an end user through a user interface at CTD 100B. The annotation applied to each 150 question is then associated with the structure of the question so that 150 questions of similar location are assigned the same annotation. Indeed, the extraction rules among the extraction rules 160 can be deduced on the basis of a correlation between the terms of each annotated question among the questions and the annotations themselves. Additionally, once an extraction rule 160 has been inferred from a human annotation of question 150, the extraction rule 160 can be presented in the user interface for confirmation by the end user.

Dans un variante, les questions 150 de la base de données 170 peuvent être regroupées davantage pour des raisons de similarité sémantique. À cet égard, chacune des questions 150 peut être soumise à un traitement du langage naturel afin de réduire chacune des questions 150 à une forme plus simple de sorte que les ensembles de questions 150 puissent être considérés comme la même question générale lorsque les questions 150 de l’ensemble ont le même résultat sémantique du traitement du langage naturel. En regroupant les questions 150 dans la base de données 170, chaque réponse déjà mappée à une forme de genre d’un ensemble de questions 150 peut être appliquée à toutes les espèces de questions 150 de l’ensemble sans nécessiter un mappage séparé de chaque réponse à chaque espèce de questions 150 de l’ensemble.Alternatively, questions 150 from database 170 may be further grouped for semantic similarity. In this regard, each of the 150 questions can be subjected to natural language processing to reduce each of the 150 questions to a simpler form so that the sets of 150 questions can be considered as the same general question when the 150 questions of all have the same semantic result of natural language processing. By grouping 150 questions into the 170 database, each answer already mapped to a genre form of a set of 150 questions can be applied to all 150 question species in the set without requiring separate mapping of each answer. to each species of questions 150 of the set.

Le processus décrit en liaison avec la figure 1 peut être mis en œuvre dans un système informatique de traitement des données. Dans une autre illustration, la figure 2 montre schématiquement un système informatique de traitement des données adapté à l’identification et à la compréhension des questions pilotées par ordinateur dans un CTD. Le système comprend un système informatique hôte 200. Le système informatique hôte 200 comprend un ou plusieurs ordinateurs, chacun avec une mémoire et au moins un processeur. Une application de gestion de réponse CTD 240 s’exécute dans la mémoire de la plate-forme informatique hôte 210 et fournit la gestion automatisée de la génération des documents de réponse aux différents CTD. Différents utilisateurs finaux accèdent à l’application de gestion de réponse CTD 240 à partir d’un réseau de communication informatique 210 via différentes interfaces utilisateur 260 fournies dans différents dispositifs informatiques clients 260.The process described in conjunction with Figure 1 can be implemented in a data processing computer system. In another illustration, Figure 2 schematically shows a data processing computer system suitable for identifying and understanding computer-driven questions in a CTD. The system includes a host computer system 200. The host computer system 200 includes one or more computers, each with memory and at least one processor. A CTD response management application 240 runs in memory of the host computing platform 210 and provides automated management of the generation of response documents to the various CTDs. Different end users access the CTD response management application 240 from a computer communication network 210 via different user interfaces 260 provided in different client computing devices 260.

Il convient de noter que les applications de gestion des réponses CTD 240 facilitent l’assemblage d’un document de réponse à un CTD particulier en identifiant les questions dans le CTD particulier, et en mappant les questions identifiées parmi les questions similaires ou identiques stockées dans la mémoire de données de questions 220 et les réponses correspondantes stockées dans la mémoire de données de réponses 230. Pour ce faire, le module d’extraction de questions 300 est couplé à l’application de gestion des réponses CTD 240. Pendant l’exécution dans la plate-forme informatique hôte 200, le module d’extraction de questions 300 est configuré pour automatiser la population de la mémoire de données de questions 220 avec des questions identifiées parmi une multiplicité de CTD fournis par les utilisateurs finaux via les différentes interfaces utilisateur 260 afin de produire une base de données de production participative de questions dans la mémoire de données 220.It should be noted that the CTD 240 response management applications facilitate the assembly of a response document to a particular CTD by identifying the questions in the particular CTD, and mapping the identified questions among similar or identical questions stored in the question data memory 220 and the corresponding answers stored in the answer data memory 230. To do this, the question extraction module 300 is coupled to the CTD answer management application 240. During execution within the host computing platform 200, the question extraction module 300 is configured to automate the population of the question data store 220 with questions identified from a multiplicity of CTDs provided by end users via the various user interfaces 260 to generate a crowd-sourced database of questions in data store 220.

Plus précisément, le module d’extraction de questions 300 est défini par des instructions de programme informatique qui sont activées pendant l’exécution pour regrouper une série de CTD reçus par l’intermédiaire d’un réseau de communication informatique 210 par classification de chacun des CTD. Plus précisément, les instructions de programme déterminent la classification de chacun des CTD en fonction d’un certain nombre de mécanismes. Ces mécanismes peuvent comprendre l’extraction, à partir de chacun des CTD, de méta-données indiquant la classification. D’autres mécanismes comprennent l’analyse du texte de chaque CTD afin d’identifier différents termes et la comparaison de ces termes aux mots-clés présents dans un tableau de classification 280A. Une prédominance de certains termes corrélés à des mots-clés de la même classification entraîne l’attribution de cette classification au CTD. Enfin, un autre mécanisme comprend l’analyse du contenu de chaque CTD, le filtrage du contenu à un sous-ensemble de termes dans le CTD et la soumission du sous-ensemble de termes à un réseau neuronal de classification 280A formé pour corréler différents ensembles de termes avec une probabilité d’une classification particulière.Specifically, question extraction module 300 is defined by computer program instructions that are activated during runtime to group together a series of CTDs received over a computer communications network 210 by classifying each of the CTD. Specifically, the program instructions determine the classification of each of the CTDs based on a number of mechanisms. These mechanisms may include the extraction, from each of the CTDs, of metadata indicating the classification. Other mechanisms include parsing the text of each CTD to identify different terms and comparing those terms to the keywords present in a classification table 280A. A predominance of certain terms correlated to keywords of the same classification leads to the assignment of this classification to the CTD. Finally, another mechanism includes parsing the content of each CTD, filtering the content to a subset of terms in the CTD, and submitting the subset of terms to a classification neural network 280A trained to correlate different sets of terms with a probability of a particular classification.

Dans tous les cas, une fois que les instructions de programme du module d’extraction de questions 300 ont regroupé les CTD par classification, les instructions de programme sélectionnent un modèle de segmentation 290 pour chacun des CTD correspondant à la classification assignée au regroupement du CTD. Les instructions de programme appliquent ensuite le modèle de segmentation 290 sélectionné pour chaque CTD correspondant parmi les CTD afin de segmenter chacun des CTD dans différents segments. Enfin, les instructions de programme, pour chaque segment de chacun des CTD, localisent dans un tableau de règles d’extraction 250 un ensemble spécifique de règles d’extraction pour chaque segment, et appliquent les règles d’extraction localisées au segment respectif afin d’identifier et d’extraire une ou plusieurs questions pour stockage dans la mémoire de données des questions 220. De cette façon, la mémoire de données des questions 220 peut être remplie par une sélection de questions de production participative qui peuvent ensuite être traitées individuellement ou par groupe de questions regroupées pour formuler des réponses dans la mémoire de données des réponses 230. Une fois que les réponses sont présentes dans la mémoire de données de réponse 230, l’application de gestion de réponse CTD 240 peut faciliter l’accès à ces réponses, ou même remplir automatiquement une réponse à un CTD reçu en même temps avec des réponses mappées aux questions reconnues dans le CTD reçu en même temps et déterminées comme étant similaires ou identiques aux questions correspondantes de la mémoire de données des questions 220.In any case, once the question extraction module program instructions 300 have grouped the CTDs by classification, the program instructions select a segmentation model 290 for each of the CTDs corresponding to the classification assigned to the grouping of the CTD . The program instructions then apply the selected segmentation model 290 to each corresponding CTD of the CTDs to segment each of the CTDs into different segments. Finally, the program instructions, for each segment of each of the CTDs, locate in an extraction rule table 250 a specific set of extraction rules for each segment, and apply the located extraction rules to the respective segment in order to identify and retrieve one or more questions for storage in question data store 220. In this way, question data store 220 can be populated with a selection of crowdsourcing questions which can then be processed individually or by group of questions grouped together to formulate answers in the answer data memory 230. Once the answers are present in the answer data memory 230, the CTD answer management application 240 can facilitate access to these responses, or even automatically populate a response to a concurrently received CTD with responses mapped to recognized questions in the concurrently received CTD and determined to be similar or identical to the corresponding questions in question data store 220.

Pour illustrer encore davantage le fonctionnement du module d’extraction de questions 300, la Figure 3 est un organigramme illustrant un processus d’identification et de compréhension de questions pilotées par ordinateur dans un CTD. A partir du bloc 210, un CTD est sélectionné pour traitement et dans le bloc 320, le texte du CTD est analysé et transmis à un classificateur pour classer le CTD comme appartenant à un regroupement particulier de CTD. Ensuite, dans le bloc 330, un modèle de segmentation sélectionné qui correspond à la classification du regroupement et le modèle est appliqué au CTD dans le bloc 340, pour segmenter le CTD dans des différents segments dans lesquels on peut trouver des différentes questions.To further illustrate the operation of question extraction module 300, Figure 3 is a flowchart illustrating a process for identifying and understanding computer-driven questions in a CTD. From block 210 a CTD is selected for processing and in block 320 the CTD text is parsed and passed to a classifier to classify the CTD as belonging to a particular grouping of CTDs. Next, in block 330, a selected segmentation template that matches the cluster classification and the template is applied to the CTD in block 340, to segment the CTD into different segments in which different questions can be found.

Dans le bloc 350, un premier segment parmi les segments est sélectionné pour le traitement et dans le bloc 360, une règle d’extraction est localisée pour le segment à partir d’une table corrélant les règles d’extraction aux segments. Dans le bloc 370, la règle d’extraction localisée est appliquée au texte du segment afin d’extraire une question. Dans la case 380, la question extraite peut être simplifiée sémantiquement, par exemple, par un traitement du langage naturel ou par une partie d’identification de la parole, l’identification de termes synonymes et la réduction des phrases. Dans le bloc 390, la question simplifiée est ensuite comparée aux questions simplifiées existantes dans la mémoire de données des questions afin de déterminer si la question extraite doit être regroupée avec d’autres questions similaires appartenant au même genre que la question simplifiée. Si c’est le cas, la question extraite est regroupée sous le genre de la question simplifiée à laquelle une ou plusieurs réponses peuvent déjà avoir été mappées dans la mémoire de données des réponses.In block 350, a first of the segments is selected for processing and in block 360, an extraction rule is located for the segment from a table correlating extraction rules to segments. In block 370, the localized extraction rule is applied to the segment text to extract a question. In box 380, the extracted question can be simplified semantically, for example, by natural language processing or speech identification part, identification of synonymous terms and sentence reduction. In block 390, the simplified question is then compared to existing simplified questions in the question data store to determine if the retrieved question should be grouped with other similar questions belonging to the same genre as the simplified question. If so, the extracted question is grouped under the genre of the simplified question to which one or more answers may already have been mapped in the answer data store.

Enfin, dans le bloc de décision 400, s’il reste des segments supplémentaires à traiter dans le CTD, dans le bloc 410, un segment suivant dans le CTD est sélectionné pour traiter le processus retourne au bloc 360. Sinon, le processus retourne au bloc 310 avec la récupération d’un CTD suivant pour traitement. Il est important de noter que le processus ci-dessus peut se poursuivre pour chaque CTD reçu y compris les CTD reçus en même temps de sorte que la mémoire de données des questions change constamment en ce qui concerne le nombre et la nature des questions qui y sont stockées, ainsi que le regroupement des questions en différents regroupement.Finally, in decision block 400, if there remain additional segments to process in the CTD, in block 410 a next segment in the CTD is selected to process the process returns to block 360. Otherwise, the process returns to block 310 with retrieving a next CTD for processing. It is important to note that the above process can continue for each CTD received including CTDs received at the same time so that the question data store is constantly changing in terms of the number and nature of questions therein. are stored, as well as the grouping of questions into different groupings.

La présente invention peut être incorporée dans un système, un procédé, un programme informatique ou toute combinaison de ceux-ci. Le programme informatique peut comprendre un support de stockage lisible par ordinateur ou un support sur lequel se trouvent des instructions de programme lisibles par ordinateur pour amener un processeur à exécuter des aspects de la présente invention. Le support de stockage lisible par ordinateur peut être un dispositif tangible qui peut conserver et stocker des instructions à utiliser par un dispositif d’exécution d’instructions. Le support de stockage lisible par ordinateur peut être, par exemple, un dispositif de stockage électronique, un dispositif de stockage magnétique, un dispositif de stockage optique, un dispositif de stockage électromagnétique, un dispositif de stockage semi-conducteur ou toute combinaison appropriée de ce qui précède, sans toutefois s’y limiter.The present invention may be embodied in a system, method, computer program, or any combination thereof. The computer program may include a computer-readable storage medium or a medium on which are located computer-readable program instructions to cause a processor to perform aspects of the present invention. The computer-readable storage medium may be a tangible device that can retain and store instructions for use by an instruction executing device. The computer-readable storage medium may be, for example, an electronic storage device, a magnetic storage device, an optical storage device, an electromagnetic storage device, a semiconductor storage device, or any suitable combination thereof. foregoing, but not limited to.

Les instructions de programme lisibles par ordinateur décrites ici peuvent être téléchargées à partir d’un support de stockage lisible par ordinateur ou sur un ordinateur externe ou un périphérique de stockage externe via un réseau, sur les dispositifs de calcul/traitement respectifs. Les instructions lisibles par ordinateur peuvent être exécutées entièrement sur l’ordinateur de l’utilisateur, en partie sur l’ordinateur de l’utilisateur, en tant que progiciel autonome, en partie sur l’ordinateur de l’utilisateur et en partie sur un ordinateur distant ou entièrement sur l’ordinateur ou le serveur distant. Certains aspects de la présente invention sont décrits ici à l’aide d’organigrammes et/ou de schémas fonctionnels de procédés, d’appareils (systèmes) et de produits de programmes informatiques sur la base des modes de réalisation de l’invention. Il est entendu que chaque bloc des organigrammes et/ou des schémas fonctionnels, ainsi que les combinaisons de blocs des organigrammes et/ou des schémas fonctionnels, peuvent être réalisés au moyen d’instructions de programme lisibles par ordinateur.The computer-readable program instructions described herein may be downloaded from a computer-readable storage medium or onto an external computer or external storage device via a network to the respective computing/processing devices. The computer-readable instructions may be executed wholly on the user's computer, partly on the user's computer, as a stand-alone software package, partly on the user's computer, and partly on a remote computer or entirely on the remote computer or server. Certain aspects of the present invention are described herein using flow charts and/or block diagrams of methods, apparatus (systems), and computer program products based on embodiments of the invention. It is understood that each block of the flowcharts and/or block diagrams, as well as combinations of blocks of the flowcharts and/or block diagrams, can be realized by means of computer readable program instructions.

Ces instructions de programme lisibles par ordinateur peuvent être fournies à un processeur d’un ordinateur à usage général, d’un ordinateur à usage spécifique ou d’un autre appareil de traitement de données programmable pour produire une machine, de sorte que les instructions, qui sont exécutées par l’intermédiaire du processeur de l’ordinateur ou d’un autre appareil de traitement de données programmable, créent des moyens pour exécuter les fonctions/actions spécifiées dans le ou les blocs des organigrammes et/ou des schémas fonctionnels. Ces instructions de programme lisibles par ordinateur peuvent également être stockées dans un support de stockage lisible par ordinateur qui peut diriger un ordinateur, un appareil de traitement de données programmable et/ou d’autres dispositifs pour fonctionner d’une manière particulière, de sorte que le support de stockage lisible par ordinateur dans lequel sont stockées des instructions comprend un article de fabrication comprenant des instructions qui exécutent des aspects des fonctions/actions spécifiées dans le ou les blocs des organigrammes et/ou des schémas fonctionnels.These computer readable program instructions may be supplied to a processor of a general purpose computer, special purpose computer or other programmable data processing device to produce a machine, such that the instructions, which are executed through the computer processor or other programmable data processing device, create means to perform the functions/actions specified in the block(s) of the flowcharts and/or block diagrams. These computer-readable program instructions may also be stored in a computer-readable storage medium which may direct a computer, programmable data processing apparatus, and/or other devices to operate in a particular manner, so that the computer-readable storage medium in which instructions are stored comprises an article of manufacture comprising instructions which perform aspects of the functions/actions specified in the block(s) of the flowcharts and/or block diagrams.

Les instructions de programme lisibles par ordinateur peuvent également être chargées sur un ordinateur, un autre appareil de traitement de données programmable ou un autre dispositif pour provoquer l’exécution d’une série d’étapes opérationnelles sur l’ordinateur, un autre appareil programmable ou un autre dispositif pour produire un procédé exécuté par ordinateur, de sorte que les instructions qui exécutent sur l’ordinateur, un autre appareil programmable ou un autre dispositif mettent en œuvre les fonctions/actions indiquées dans le ou les blocs des organigrammes et/ou des schémas fonctionnels.The computer-readable program instructions may also be loaded into a computer, other programmable data processing device, or other device to cause a series of operational steps to be performed on the computer, other programmable device, or another device to produce a computer-executed process, such that the instructions that execute on the computer, other programmable device, or other device implement the functions/actions indicated in the block(s) of the flowcharts and/or block diagrams.

L’organigramme et les schémas fonctionnels présentés dans les figures illustrent l’architecture, la fonctionnalité et le fonctionnement d’implémentations possibles de systèmes, de procédés et de produits de programmes informatiques sur la base des diverses modes de réalisation de la présente invention. À cet égard, chaque bloc de l’organigramme ou des schémas fonctionnels peut représenter un module, un segment ou une partie d’instructions, qui comprend une ou plusieurs instructions exécutables pour mettre en œuvre la ou les fonctions logiques spécifiées. Dans certaines implémentations alternatives, les fonctions notées dans le bloc peuvent se produire dans l’ordre indiqué dans les figures. Par exemple, deux blocs montrés successivement peuvent, en fait, être exécutés sensiblement simultanément, ou les blocs peuvent parfois être exécutés dans l’ordre inverse, sur la base de la fonctionnalité impliquée. Il convient également de noter que chaque bloc des schémas fonctionnels et/ou des organigrammes, et les combinaisons de blocs des schémas fonctionnels et/ou des organigrammes, peuvent être mis en œuvre par des systèmes matériels spéciaux qui effectue les fonctions ou les actes spécifiés ou exécutent des combinaisons de matériel spécial et d’instructions informatiques.The flowchart and block diagrams presented in the figures illustrate the architecture, functionality, and operation of possible implementations of systems, methods, and computer program products based on the various embodiments of the present invention. In this regard, each block in the flowchart or block diagrams may represent a module, segment or part of instructions, which includes one or more executable instructions to implement the specified logical function(s). In some alternative implementations, the functions noted in the block may occur in the order shown in the figures. For example, two blocks shown in succession may, in fact, be executed substantially simultaneously, or the blocks may sometimes be executed in reverse order, depending on the functionality involved. It should also be noted that each block of the block diagrams and/or flowcharts, and combinations of blocks of the block diagrams and/or flowcharts, may be implemented by special hardware systems that perform the specified functions or acts or execute combinations of special equipment and computer instructions.

Enfin, la terminologie utilisée dans le présent document ne vise qu’à décrire des modes de réalisation particuliers et ne vise pas à limiter l’invention. Il sera en outre entendu que les termes "comprend" et/ou "comprenant", lorsqu’ils sont utilisés dans la présente spécification, précisent la présence de caractéristiques, entiers, étapes, opérations, éléments et/ou composants indiqués, mais n’excluent pas la présence ou l’ajout d’une ou plusieurs autres caractéristiques, entiers, étapes, opérations, éléments, composants et/ou groupes de ceux-ci.Finally, the terminology used herein is only intended to describe particular embodiments and is not intended to limit the invention. It will be further understood that the terms "comprises" and/or "comprising", when used in this specification, indicate the presence of indicated characteristics, integers, steps, operations, elements and/or components, but do not do not exclude the presence or addition of one or more other characteristics, integers, steps, operations, elements, components and/or groups thereof.

Les structures, matériaux, actes et équivalents correspondants de tous les moyens ou éléments de l’étape et de la fonction dans les différents modes de réalisation de l’invention sont destinés à inclure toute structure, tout matériau ou tout acte pour exécuter la fonction en combinaison avec d’autres éléments. La description de la présente invention a été présentée à des fins d’illustration et de description, mais ne se veut pas exhaustive ou limitée à l’invention sous la forme divulguée. De nombreuses modifications et variations seront apparentes aux hommes du métier sans s’écarter de la portée et de l’esprit de l’invention. Le mode de réalisation a été sélectionné et décrit afin d’expliquer au mieux les principes de l’invention et son application pratique, et de permettre à d’autres hommes du métier de comprendre l’invention pour diverses modes de réalisation avec diverses modifications adaptées à l’usage particulier envisagé.The corresponding structures, materials, acts and equivalents of all means or elements of the step and function in the various embodiments of the invention are intended to include any structure, material or act to perform the function in combination with other elements. The description of the present invention has been presented for purposes of illustration and description, but is not intended to be exhaustive or limited to the invention in the form disclosed. Many modifications and variations will be apparent to those skilled in the art without departing from the scope and spirit of the invention. The embodiment has been selected and described in order to best explain the principles of the invention and its practical application, and to enable others skilled in the art to understand the invention for various embodiments with various suitable modifications for the particular intended use.

Après avoir ainsi décrit l’invention de la présente demande en détail et par référence à ses modes de réalisation, il apparaîtra que des modifications et des variations sont possibles sans s’écarter de la portée de l’invention définie.Having thus described the invention of the present application in detail and by reference to its embodiments, it will be apparent that modifications and variations are possible without departing from the defined scope of the invention.

Claims

A computer data processing system configured to identify and understand computer-driven issues in a commercial tender document (CTD), the system comprising:
a host computer system comprising one or more computers, each with memory and at least one processor; a data memory coupled to the computer system and storing therein a multiplicity of different CTDs received from a computer communication network from different computer clients, from different people; And,
a question identification module comprising computer program instructions executing in memory of the host computer system, the program instructions performing the steps of:
loading into memory of the host computer system a plurality of CTDs;
grouping the CTDs into multiple different groupings according to at least one grouping criterion; And,
for each of the CTDs:
identifying a matching one of the clusters;
selecting a segmentation model for the identified cluster from the clusters; performing segmentation on said CTD of CTDs using the selected segmentation template to produce a set of segmented portions of said CTD of CTDs; And,
for each of the segmented portions:
retrieving a set of extraction rules mapped to said one of the segmented portions;
extracting at least one question from said one of the segmented portions using the set of extraction rules; And,
store each extracted question in a crowdsourced database of questions for CTDs.

A system according to claim 1, wherein the grouping criterion is an industry classification for a different source of each of the CTDs.

A system according to claim 2, wherein the industry classification is specified in machine-readable metadata included with each of the CTDs.

A system according to claim 2, wherein the industry classification is determined by analyzing keywords from each of the CTDs and for each of the CTDs, by matching the analyzed keywords to words known to match a specific industry classification.

The system of claim 2, wherein the industry classification is determined by analyzing keywords from each of the CTDs and for each of the CTDs, subjecting the corresponding ones of the analyzed keywords to a neural network trained to correlate the terms submitted with a particular industrial classification.

A system according to claim 2, wherein the segmentation model is a model of a prototype CTD for industrial classification indicating different topical sections of the prototype CTD.

A system according to claim 1, wherein the program instructions further perform the steps of:
process in natural language each question extracted from the crowdsourcing database;
group questions in the database based on similarity based on natural language processing;
selecting a simplest form of the grouped questions as a representative question among the questions; And,
associate the grouped questions with the simplest form of the grouped questions and store the simplest form of the grouped questions in the database as the representative question among the questions for the grouped questions.

A computer program product for identifying and understanding computer-driven issues in a commercial tender document (CTD), the computer program product comprising program instructions recorded on a computer-readable storage medium computer, the program instructions being executable by a device to cause the device to perform the steps of:
downloading into a fixed storage of a computer from a computer communication network from different computer clients, different CTDs of different people;
loading into computer memory a plurality of CTDs;
grouping the CTDs into multiple different groupings according to at least one grouping criterion; And,
for each of the CTDs:
identifying a matching one of the clusters;
selecting a segmentation model for the identified cluster from the clusters; performing segmentation on said CTD of CTDs using the selected segmentation template to produce a set of segmented portions of said CTD of CTDs; And,
for each of the segmented portions:
retrieving a set of extraction rules mapped to said one of the segmented portions;
extracting at least one question from said one of the segmented portions using the set of extraction rules; And,
store each extracted question in a crowdsourced database of questions for CTDs.

A computer program product according to claim 8, wherein the grouping criterion is an industry classification for a different source of each of the CTDs.

A computer program product according to claim 9, wherein the industry classification is specified in machine-readable metadata included with each of the CTDs.

A computer program product according to claim 9, wherein the industry classification is determined by parsing keywords from each of the CTDs and for each of the CTDs, matching the parsed keywords to words known to match a specific industrial classification.

A computer program product according to claim 9, wherein the segmentation model is a model of a prototype CTD for industrial classification indicating different topical sections of the prototype CTD.

A computer program product according to claim 8, wherein the steps performed by the device further include the steps of:
process in natural language each question extracted from the crowdsourcing database;
group questions in the database based on similarity based on natural language processing;
selecting a simplest form of the grouped questions as a representative question among the questions; And,
associate the grouped questions with the simplest form of the grouped questions and store the simplest form of the grouped questions in the database as the representative question among the questions for the grouped questions.